CN116933806A

CN116933806A - 一种同传翻译系统及同传翻译终端

Info

Publication number: CN116933806A
Application number: CN202311024945.2A
Authority: CN
Inventors: 黄发洋; 李艳雄; 席艺涵
Original assignee: Ningbo Yilian Technology Co ltd
Current assignee: Ningbo Yilian Technology Co ltd
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-10-24
Anticipated expiration: 2043-08-15
Also published as: CN116933806B

Abstract

本发明公开了一种同传翻译系统及同传翻译终端，涉及翻译系统技术领域，质量评估模块基于质量分析模型综合分析理解数据以及翻译数据，评估当前翻译质量是否合格，当评估结果为当前翻译质量不合格时，调控模块唤醒二次优化模块，二次优化模块选择其它翻译器重新对获取内容进行多次翻译，若重新翻译质量连续超过两次不合格，则提示演讲者重新输入语音，若翻译质量合格，翻译数据发送至文本合成模块，当评估结果为当前翻译质量合格时，调控模块将翻译数据发送至文本合成模块。本发明翻译系统在进行视频会议翻译时，能够实时评估翻译质量并做出处理，有效保障翻译准确性，从而保障会议的稳定进行。

Description

一种同传翻译系统及同传翻译终端

技术领域

本发明涉及翻译系统技术领域，具体涉及一种同传翻译系统及同传翻译终端。

背景技术

同传翻译系统，也称作"同声传译系统"，是一种专门设计用于实时翻译口译的技术工具，它的目标是在演讲、会议、谈判等场合中，实现即时而准确的语言翻译，使不同语言背景的人能够有效地交流和理解彼此；

20世纪中叶，当时在国际会议等活动中，多语种交流变得越来越常见，但语言障碍成为了一个显著的问题，传统的连续口译需要时间较长，容易造成交流中断，而同传翻译系统的出现就是为了解决这个问题。

现有技术存在以下不足：

当出现紧急情况时(如企业有重大事件)，企业召开紧急视频会议可能会导致无法及时配置翻译人员，此时就需要通过同传翻译系统来进行辅助翻译，然而，现有的同传翻译系统在进行实时视频会议翻译时，对翻译质量没有进行评估处理，从而容易导致翻译结果不准确或者翻译错误，影响会议进行。

发明内容

本发明的目的是提供一种同传翻译系统及同传翻译终端，以解决背景技术中不足。

为了实现上述目的，本发明提供如下技术方案：一种同传翻译系统，包括语音输入模块、语音识别模块、语义理解模块、翻译模块、质量评估模块、调控模块、二次优化模块、文本合成模块、语音输出模块以及用户界面模块；

语音输入模块：将演讲者的语音输入转换为数字化的语音数据；

语音识别模块：将语音数据转换为文本形式；

语义理解模块：对识别出的文本进行语义分析和理解，获取演讲者的意图和所表达的内容；

翻译模块：将源语言的文本转换为目标语言的文本，进行语言翻译；

质量评估模块：基于质量分析模型综合分析理解数据以及翻译数据，评估当前翻译质量是否合格；

调控模块：当评估结果为当前翻译质量不合格时，唤醒二次优化模块，当评估结果为当前翻译质量合格时，将翻译数据发送至文本合成模块；

二次优化模块：重新对获取内容进行多次翻译，若重新翻译质量连续超过两次不合格，则提示演讲者重新输入语音，若翻译质量合格，翻译数据发送至文本合成模块；

文本合成模块：将翻译后的目标语言文本转换为语音数据；

语音输出模块：将合成的语音数据通过音频输出设备传递给听众；

用户界面模块：将提示信息向用户显示。

优选的，所述理解数据包括语音正确识别率，翻译数据包括翻译结果相似指数、词级别匹配程度以及翻译时网络丢包率。

优选的，所述质量分析模型建立包括以下步骤：

将语音正确识别率、翻译结果相似指数、词级别匹配程度以及翻译时网络丢包率综合计算获取质量系数zlx，计算表达式为：

式中，zqy为语音正确识别率，xsf为翻译结果相似指数，jpf为词级别匹配程度，dbw为翻译时网络丢包率，α、β、γ、δ分别为语音正确识别率、翻译结果相似指数、词级别匹配程度以及翻译时网络丢包率的比例系数，且α、β、γ、δ均大于0；

获取质量系数zlx值后，将质量系数zlx值与质量阈值进行对比，完成质量分析模型的建立。

优选的，所述质量评估模块获取语音正确识别率、翻译结果相似指数、词级别匹配程度以及翻译时网络丢包率后，基于质量分析模型分析语音正确识别率、翻译结果相似指数、词级别匹配程度以及翻译时网络丢包率，评估当前翻译质量是否合格包括以下步骤：

将语音正确识别率、翻译结果相似指数、词级别匹配程度以及翻译时网络丢包率代入质量系数计算公式计算得到一个质量系数zlx值；

若质量系数zlx值≥质量阈值，评估当前翻译质量合格；

若质量系数zlx值＜质量阈值，评估当前翻译质量不合格。

优选的，所述语音正确识别率的计算表达式为：

式中，zq语音正确识别字数，lj为语音理解识别字数，cw为语音无法识别字数。

优选的，所述翻译结果相似指数的计算表达式为：

式中，表示候选文本c中的第i个n-gram，表示参考文本中的第j个n-gram，表示与之间的相似度，通常使用n-gram之间的BLEU或其他相似性度量来计算，M是参考文本的数量，N是候选文本中的总n-gram数。

优选的，所述词级别匹配程度的计算表达式为：

jpf＝(1-τ)*P+τ*R*F

式中，P表示精确匹配率，R表示召回率，F表示F1得分，τ是权衡精确匹配率和召回率的参数。

优选的，所述F1得分F的计算表达式为：

P表示精确匹配率，R表示召回率，精确匹配率表示机器翻译结果中正确匹配的词语数量与机器翻译结果中总词语数量的比例，召回率表示机器翻译结果中正确匹配的词语数量与参考翻译中总词语数量的比例。

优选的，所述翻译时网络丢包率的计算表达式为：

式中，dsb为丢失的数据包数量，zfb为总发送的数据包数量。

本发明还提供一种同传翻译终端，运行同传翻译系统。

在上述技术方案中，本发明提供的技术效果和优点：

1、本发明通过语义理解模块对识别出的文本进行语义分析和理解，以获取演讲者的意图和所表达的内容，翻译模块将源语言的文本转换为目标语言的文本，实现语言的翻译功能，质量评估模块基于质量分析模型综合分析理解数据以及翻译数据，评估当前翻译质量是否合格，当评估结果为当前翻译质量不合格时，调控模块唤醒二次优化模块，二次优化模块选择其它翻译器重新对获取内容进行多次翻译，若重新翻译质量连续超过两次不合格，则提示演讲者重新输入语音，若翻译质量合格，翻译数据发送至文本合成模块，当评估结果为当前翻译质量合格时，调控模块将翻译数据发送至文本合成模块，该翻译系统在进行视频会议翻译时，能够实时评估翻译质量并做出处理，有效保障翻译准确性，从而保障会议的稳定进行。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明的系统模块图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：请参阅图1所示，本实施例所述一种同传翻译系统，包括语音输入模块、语音识别模块、语义理解模块、翻译模块、质量评估模块、调控模块、二次优化模块、文本合成模块、语音输出模块以及用户界面模块；

语音输入模块：该模块用于将演讲者的语音输入转换为数字化的语音数据，通常通过麦克风或其他语音输入设备实现，语音数据发送至语音识别模块。

语音识别模块：该模块将语音数据转换为文本形式，即将演讲者的语音数据转换为相应的文字，识别文本发送至语义理解模块；

预处理：采集到的音频信号可能包含噪音、回声等干扰，需要进行预处理来提升语音识别的准确性；预处理可能包括去噪、音频增强等步骤；

特征提取：将音频信号转换为数学特征表示是语音识别的关键步骤；通常使用梅尔频率倒谱系数(MFCC)等技术，将音频信号转换为一系列特征向量；

声学模型：声学模型是语音识别的重要组成部分，它是一个训练得到的模型，用于将特征向量映射到音素或子词级别的文本单位；常见的声学模型包括隐马尔可夫模型(HMM)和深度学习模型，如卷积神经网络(CNN)和循环神经网络(RNN)等；

解码：在解码阶段，语音识别系统会使用声学模型生成的概率分布，以及语言模型的辅助，来找到最可能的文本序列；解码的过程通常使用维特比算法等技术；

后处理：解码得到的文本序列可能包含错误或不自然的部分，后处理步骤可以进一步优化识别结果，比如进行拼写纠正、语法校正等；

输出文本：最终，语音识别模块会将解码后的文本序列输出作为演讲者的语音内容的文本表示。

语义理解模块：该模块对识别出的文本进行语义分析和理解，以获取演讲者的意图和所表达的内容，获取内容发送至翻译模块以及二次优化模块，理解数据发送至质量评估模块；

词法分析：将识别出的文本分割成单词或词组，并进行词法分析，确定每个词的词性、形态和基本属性；

句法分析：句法分析是分析句子结构的过程，确定词之间的语法关系和层次结构；这有助于理解句子中的主谓宾关系、修饰关系等；

语义角色标注：语义角色标注将句子中的每个词标记为不同的语义角色，如主语、动作、客体等；这有助于捕捉句子中的语义关系和逻辑结构；

命名实体识别：识别文本中的命名实体，如人名、地名、组织名等，以帮助理解句子中的具体信息；

依存分析：依存分析是分析词与词之间的依存关系，确定句子中每个词与其他词的关系；这可以帮助理解句子的结构和意义；

语义解析：语义解析是将句子转化为语义表示的过程，将句子中的词与句子意义之间的关系进行建模；这有助于捕捉句子的语义信息；

意图分析：根据句子的语义表示，推断出演讲者的意图和目的；这可以涉及从句子中提取出的操作、动作或请求等；

情感分析：在一些情况下，语义理解模块可能还需要进行情感分析，以确定句子中表达的情感色彩，从而更好地理解演讲者的情感态度。

翻译模块：该模块将源语言的文本转换为目标语言的文本，实现语言的翻译功能，该模块可以使用机器翻译技术，如统计机器翻译或神经机器翻译，翻译数据发送至质量评估模块；

预处理：在进行机器翻译之前，需要对源语言文本进行预处理，包括分词、去除标点符号、转化为小写等；这些步骤有助于提供更好的输入数据给翻译模型；

特征提取(对于SMT)：在统计机器翻译中，需要将源语言文本转换为特征向量表示；这通常涉及词汇表、短语表和语言模型的使用；

编码(对于NMT)：在神经机器翻译中，源语言文本会被编码为连续向量表示，例如使用循环神经网络(RNN)或Transformer编码器；

解码：解码是将特征向量或编码后的表示转化为目标语言文本的过程；在统计机器翻译中，可以使用短语翻译表和语言模型来进行解码；在神经机器翻译中，使用解码器来生成目标语言文本；

翻译结果生成：在解码的过程中，生成目标语言的文本，可以是单词、短语或子词级别的；

后处理：生成的目标语言文本可能需要进行后处理，例如重新分词、大小写处理等，以得到更自然的翻译结果；

输出目标语言文本：最终，翻译模块将生成的目标语言文本作为翻译结果输出。

质量评估模块：基于质量分析模型综合分析理解数据以及翻译数据，评估当前翻译质量是否合格，评估结果发送至调控模块。

调控模块：当评估结果为当前翻译质量不合格时，唤醒二次优化模块，当评估结果为当前翻译质量合格时，将翻译数据发送至文本合成模块。

二次优化模块：选择其它翻译器重新对获取内容进行多次翻译，若重新翻译质量连续超过两次不合格，则提示演讲者重新输入语音，若翻译质量合格，翻译数据发送至文本合成模块，提示信息发送至用户界面模块。

文本合成模块：该模块将翻译后的目标语言文本转换为语音数据，以便传递给听众，通常使用文本到语音合成技术来实现；

文本分析：首先，需要对翻译后的目标语言文本进行分析，了解文本的内容、语气、情感等信息；这有助于确定合适的发音、语调和语速；

语音合成引擎选择：选择合适的语音合成引擎，这些引擎基于不同的技术和模型，能够生成自然流畅的语音；

声学模型生成：使用选定的语音合成引擎，生成声学模型，这个模型将文本与声音的映射关系进行建模；声学模型可以是基于统计的，也可以是基于神经网络的；

发音规则和语音库：在文本到语音合成中，需要考虑发音规则和语音库，以确保合成的语音发音准确和自然；发音规则可以包括特定词汇、音素、重音等的发音规范；

合成参数设置：设置合成参数，如语速、音调、情感等；这些参数可以根据具体场景进行调整，以使合成的语音更符合听众的需求；

语音合成生成：将目标语言的翻译文本输入到语音合成引擎中，引擎根据声学模型、发音规则和参数生成对应的语音；

后处理：合成的语音可能需要进行后处理，以提升其质量和自然度；后处理可以包括音频的平滑处理、去噪等；

输出语音数据：最终，文本合成模块会输出合成后的语音数据，这些数据可以传递给听众，实现翻译文本的语音播放。

语音输出模块：该模块将合成的语音数据通过扬声器或其他音频输出设备传递给听众，以便听众能够听到翻译结果；

音频传输：合成的语音数据需要通过合适的音频传输方式发送到扬声器或音频输出设备；这可以是有线或无线传输，如音频线缆、蓝牙、Wi-Fi等；

音频播放设备：选择适当的音频播放设备，如扬声器、耳机等，以确保听众能够听到翻译结果的语音；

音频播放控制：控制音频播放的开始、暂停、停止等操作，确保在适当的时机播放合成的语音；

音量控制：控制音频的音量，以使翻译结果的语音能够以适当的音量传递给听众，避免过大或过小的音量；

声音质量优化：对于一些特殊场景，可能需要对声音质量进行优化，如去除噪音、调整音色等，以提供更好的听觉体验。

用户界面模块：将提示信息向用户显示，该模块提供给用户一个友好的界面，以便用户能够进行操作和控制系统的功能，用户界面可以是图形界面、语音交互界面或其他形式；

界面设计：设计一个用户友好的界面，考虑布局、颜色、图标等元素，使用户能够直观地理解界面的功能和操作；

交互设计：设计用户与界面的交互方式，包括按钮、文本框、滑动条等交互元素，确保用户可以方便地与系统进行互动；

图形界面：如果采用图形界面，需要实现界面的可视化呈现，以及与用户的交互；用户可以通过点击按钮、填写文本等方式与系统进行交互；

语音交互界面：对于一些场景，用户可能更希望通过语音来进行交互；语音交互界面可以接收用户的语音指令，识别用户的意图并执行相应的操作；

反馈和提示：用户界面需要能够向用户提供及时的反馈和提示，告知用户系统正在处理、操作是否成功等信息；

功能控制：用户界面允许用户控制系统的各种功能，如启动语音识别、开始翻译、调整音量等；

语言选择：在多语言环境中，用户界面可以提供语言选择功能，让用户选择源语言和目标语言；

设置选项：提供一些可配置的设置选项，让用户根据自己的需求调整系统的参数。

本申请通过语义理解模块对识别出的文本进行语义分析和理解，以获取演讲者的意图和所表达的内容，翻译模块将源语言的文本转换为目标语言的文本，实现语言的翻译功能，质量评估模块基于质量分析模型综合分析理解数据以及翻译数据，评估当前翻译质量是否合格，当评估结果为当前翻译质量不合格时，调控模块唤醒二次优化模块，二次优化模块选择其它翻译器重新对获取内容进行多次翻译，若重新翻译质量连续超过两次不合格，则提示演讲者重新输入语音，若翻译质量合格，翻译数据发送至文本合成模块，当评估结果为当前翻译质量合格时，调控模块将翻译数据发送至文本合成模块，该翻译系统在进行视频会议翻译时，能够实时评估翻译质量并做出处理，有效保障翻译准确性，从而保障会议的稳定进行。

实施例2：质量评估模块基于质量分析模型综合分析理解数据以及翻译数据，评估当前翻译质量是否合格，评估结果发送至调控模块。

理解数据包括语音正确识别率，翻译数据包括翻译结果相似指数、词级别匹配程度以及翻译时网络丢包率；

质量分析模型建立包括以下步骤：

式中，zqy为语音正确识别率，xsf为翻译结果相似指数，jpf为词级别匹配程度，dbw为翻译时网络丢包率，α、β、γ、δ分别为语音正确识别率、翻译结果相似指数、词级别匹配程度以及翻译时网络丢包率的比例系数，且α、β、γ、δ均大于0。

质量评估模块获取语音正确识别率、翻译结果相似指数、词级别匹配程度以及翻译时网络丢包率后，基于质量分析模型分析语音正确识别率、翻译结果相似指数、词级别匹配程度以及翻译时网络丢包率，评估当前翻译质量是否合格包括以下步骤：

若质量系数zlx值≥质量阈值，评估当前翻译质量合格；

若质量系数zlx值＜质量阈值，评估当前翻译质量不合格。

本申请通过质量评估模块获取语音正确识别率、翻译结果相似指数、词级别匹配程度以及翻译时网络丢包率后，基于质量分析模型分析语音正确识别率、翻译结果相似指数、词级别匹配程度以及翻译时网络丢包率，评估当前翻译质量是否合格，分析更为全面，且有效提高对数据的处理效率。

本申请中：

语音正确识别率的计算表达式为：

式中，zq语音正确识别字数，lj为语音理解识别字数，cw为语音无法识别字数，语音正确识别率越大，翻译系统对演讲者的语音识别准确率越高，则表明翻译系统：

1)更准确的翻译基础：翻译系统会将演讲者的话语准确转换为文本，这为后续的翻译步骤提供了准确的输入；

2)更精确的翻译：准确的语音识别可以帮助翻译系统更好地理解演讲者的意图和内容，从而生成更准确的翻译结果；

3)减少误解和歧义：语音识别准确率高可以减少因为错误的识别结果引起的误解和歧义，确保翻译内容能够准确地传达演讲者的意思；

4)提高翻译效率：高准确率的语音识别可以减少翻译员校对和修正的工作，从而提高翻译效率。

翻译结果相似指数的计算表达式为：

式中，表示候选文本c中的第i个n-gram，表示参考文本中的第j个n-gram，表示与之间的相似度，通常使用n-gram之间的BLEU或其他相似性度量来计算，M是参考文本的数量，N是候选文本中的总n-gram数；

具体逻辑为：对于每个计算它与所有参考文本中的n-gram的相似度之和，然后将这些相似度求和并取平均，最后再除以候选文本中的总n-gram数；

翻译结果相似指数越大，表示翻译系统与参考文本之间的相似性更高，即候选翻译与多个参考翻译之间的一致性更好。

词级别匹配程度的计算表达式为：

jpf＝(1-τ)*P+τ*R*F

式中，P表示精确匹配率，R表示召回率，F表示F1得分，τ是权衡精确匹配率和召回率的参数；

其中，F1得分F的计算表达式为：

P表示精确匹配率，R表示召回率，精确匹配率表示机器翻译结果中正确匹配的词语数量与机器翻译结果中总词语数量的比例，召回率表示机器翻译结果中正确匹配的词语数量与参考翻译中总词语数量的比例；

τ是用于权衡精确匹配率和召回率的参数，通常取值范围为0到1，当τ为0时，只考虑精确匹配率；当τ为1时，只考虑召回率，通过调节τ的值，可以根据具体需求和场景来平衡精确匹配率和召回率的重要性；

词级别匹配程度越大，则表示翻译系统的翻译质量越高，在词语匹配、流畅性和语义一致性等方面表现得越好。

翻译时网络丢包率的计算表达式为：

式中，dsb为丢失的数据包数量，zfb为总发送的数据包数量，丢失的数据包数量是指在传输过程中未能成功到达目的地的数据包数量，总发送的数据包数量是指在传输过程中发送的总数据包数量，翻译时网络丢包率表示在数据传输过程中丢失的数据包的比例，高丢包率会导致语音传输的中断和失真，从而影响翻译质量。

当评估结果为当前翻译质量不合格时，调控模块唤醒二次优化模块，当评估结果为当前翻译质量合格时，调控模块将翻译数据发送至文本合成模块。

二次优化模块选择其它翻译器重新对获取内容进行多次翻译，若重新翻译质量连续超过两次不合格，则提示演讲者重新输入语音，若翻译质量合格，翻译数据发送至文本合成模块，提示信息发送至用户界面模块。

二次优化模块选择其它翻译器重新对获取内容进行多次翻译，并基于质量分析模型评估翻译质量是否合格，若重新翻译质量连续超过两次不合格，表明可能存在语音输入错误或网络存在影响，因此需要提示演讲者重新输入语音。

一种同传翻译终端，用于运行所述的同传翻译系统。

上述公式均是去量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式，公式中的预设参数由本领域的技术人员根据实际情况进行设置。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种同传翻译系统，其特征在于：包括语音输入模块、语音识别模块、语义理解模块、翻译模块、质量评估模块、调控模块、二次优化模块、文本合成模块、语音输出模块以及用户界面模块；

语音识别模块：将语音数据转换为文本形式；

文本合成模块：将翻译后的目标语言文本转换为语音数据；

用户界面模块：将提示信息向用户显示。

2.根据权利要求1所述的一种同传翻译系统，其特征在于：所述理解数据包括语音正确识别率，翻译数据包括翻译结果相似指数、词级别匹配程度以及翻译时网络丢包率。

3.根据权利要求2所述的一种同传翻译系统，其特征在于：所述质量分析模型建立包括以下步骤：

4.根据权利要求3所述的一种同传翻译系统，其特征在于：所述质量评估模块获取语音正确识别率、翻译结果相似指数、词级别匹配程度以及翻译时网络丢包率后，基于质量分析模型分析语音正确识别率、翻译结果相似指数、词级别匹配程度以及翻译时网络丢包率，评估当前翻译质量是否合格包括以下步骤：

若质量系数zlx值≥质量阈值，评估当前翻译质量合格；

若质量系数zlx值＜质量阈值，评估当前翻译质量不合格。

5.根据权利要求4所述的一种同传翻译系统，其特征在于：所述语音正确识别率的计算表达式为：

6.根据权利要求5所述的一种同传翻译系统，其特征在于：所述翻译结果相似指数的计算表达式为：

7.根据权利要求6所述的一种同传翻译系统，其特征在于：所述词级别匹配程度的计算表达式为：

jpf＝(1-τ)*P+τ*R*F

8.根据权利要求7所述的一种同传翻译系统，其特征在于：所述F1得分F的计算表达式为：

9.根据权利要求8所述的一种同传翻译系统，其特征在于：所述翻译时网络丢包率的计算表达式为：

式中，dsb为丢失的数据包数量，zfb为总发送的数据包数量。

10.一种同传翻译终端，其特征在于：运行有如权利要求1-9任意一项所述的同传翻译系统。