CN104240718A - 转录支持设备和方法 - Google Patents
转录支持设备和方法 Download PDFInfo
- Publication number
- CN104240718A CN104240718A CN201410089873.4A CN201410089873A CN104240718A CN 104240718 A CN104240718 A CN 104240718A CN 201410089873 A CN201410089873 A CN 201410089873A CN 104240718 A CN104240718 A CN 104240718A
- Authority
- CN
- China
- Prior art keywords
- word speed
- voice
- speed
- user
- playback
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 69
- 238000013518 transcription Methods 0.000 title abstract description 29
- 230000035897 transcription Effects 0.000 title abstract description 29
- 238000004590 computer program Methods 0.000 title 1
- 238000005070 sampling Methods 0.000 claims description 7
- 230000008901 benefit Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 description 70
- 230000008569 process Effects 0.000 description 48
- 230000006870 function Effects 0.000 description 22
- 244000205754 Colocasia esculenta Species 0.000 description 11
- 235000006481 Colocasia esculenta Nutrition 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 230000003319 supportive effect Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 241000657271 Nevromus exterior Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 201000004792 malaria Diseases 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000012559 user support system Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
根据一个实施例,一种转录支持设备包括:第一语音获取单元、第二语音获取单元、识别器、文本获取单元、信息获取单元、确定单元和控制器。第一语音获取单元获取将被转录的第一语音。第二语音获取单元获取由用户发声的第二语音。识别器识别所述第二语音以产生第一文本。文本获取单元获取第二文本,所述第二文本通过由用户修正所述第一文本而获得。信息获取单元获取表示所述第一语音的重放部分的重放信息。确定单元基于第一语音、第二语音、第二文本及和重放信息来确定第一语音的重放速度。控制器以确定的重放速度来重放第一语音。
Description
相关申请的交叉参考
本申请基于并要求于2013年6月12日提交的日本专利申请No.2013-124196的优先权;其全部内容通过引用的方式并入本文中。
技术领域
本文中所述的实施例总体上涉及一种转录支持设备和一种转录支持方法。
背景技术
在转录工作中,人们例如在收听记录的语音数据的同时将语音的内容转录为句子(为文本)。公知有用于减小转录工作的负担的技术,其在收听到转录语音之后,识别重新发声与被转录语音的内容相同的内容的语音。
但相关领域中的技术不支持按照用户所执行的工作的熟练程度的转录工作。因此,采用相关领域中的技术的支持服务对于用户是不方便的。
发明内容
实施例的目的是提供一种能够改善对用户的方便性的转录支持设备。
根据实施例,一种转录支持设备包括第一语音获取单元、第二语音获取单元、识别器、文本获取单元、信息获取单元、确定单元和控制器。第一语音获取单元被配置为获取将被转录的第一语音。第二语音获取单元被配置为获取由用户发声的第二语音。识别器被配置为识别所述第二语音以产生第一文本。文本获取单元被配置为获取第二文本,所述第二文本通过由用户修正所述第一文本而获得。信息获取单元被配置为获取重放信息,所述重放信息表示所述第一语音的重放部分。确定单元被配置为基于所述第一语音、所述第二语音、所述第二文本和所述重放信息来确定所述第一语音的重放速度。控制器被配置为以确定的重放速度来重放所述第一语音。
根据上述的转录支持设备,能够改善对用户的方便性。
附图说明
图1是示出根据实施例的转录支持系统的结构示例的图;
图2是示出根据实施例的转录支持服务的使用示例的图;
图3是示出根据实施例的转录支持服务的操作屏幕的示例的图;
图4是示出根据实施例的转录支持系统的功能结构的示例的图;
图5是示出根据实施例的在估计用户语速中所执行的过程的示例的流程图;
图6是示出根据实施例的转换为音素序列的示例的图;
图7是示出根据实施例的用户语音的发声部分的图;
图8是示出根据实施例的在估计原始语速中所执行的过程的示例的流程图;
图9是示出根据实施例的原始语音的发声部分的图;
图10是示出根据实施例的在为连续模式中的重放速度计算调整量中所执行的过程的示例的流程图;
图11是示出根据实施例的在为断续模式中的重放速度计算调整量中执行的过程的示例的流程图;及
图12是示出根据实施例的转录支持设备的结构示例的图。
具体实施方式
现将参考附图来详细说明实施例。
概述
将说明根据本实施例的转录支持设备的功能(下文中称为“转录支持功能”)。根据本实施例的转录支持设备在从用户接收到操作指令时,重放或停止要转录的语音(下文中称为“原始语音”)。转录支持设备此时获取重放信息,其中记录了原始语音的重放开始时间和重放停止时间。根据本实施例的转录支持设备识别用户的语音(下文中称为“用户语音”),用户在收听到原始语音后,重复与原始语音具有相同内容的句子,从而获取识别的字符串(第一文本),作为语音识别的结果。根据本实施例的转录支持设备随后在屏幕上显示识别的字符串,接受从用户输入的编辑,并获取被编辑的文本(第二文本)。根据本实施例的转录支持设备基于原始语音的语音数据、用户语音的语音数据、被编辑的文本和与原始语音有关的重放信息,通过确定由用户执行工作的熟练程度来确定原始语音的重放速度。根据本实施例的转录支持设备随后以确定的重放速度重放原始语音。结果,根据本实施例的转录支持设备可以改善对用户的方便性。
现将说明根据本实施例的转录支持功能的结构和操作。
系统结构
图1是示出根据本实施例的转录支持系统1000的结构示例的图。如图1所示,根据本实施例的转录支持系统1000包括转录支持设备100,以及一个或多个用户终端2001到200n(下文中统称为“用户终端200”)。所有设备100和200都通过转录支持系统1000中的数据传输线N彼此相连。
根据本实施例的转录支持设备100包括算术单元,具有服务器功能,从而同等于服务器设备等。根据本实施例的用户终端200包括算术单元,具有客户机功能,从而等同于诸如PC(个人计算机)之类的客户机设备。应当注意,用户终端200还包括信息终端,例如平板电脑。根据本实施例的数据传输线N等同于各种网络信道,例如LAN(局域网)、内联网、以太网(注册商标)、或互联网。应当注意,网络信道可以是有线的或无线的。
假设在以下情况中使用根据本实施例的转录支持系统1000。图2是示出根据本实施例的转录支持服务的使用示例的图。如图2所示,例如,用户U首先将连接到用户终端200的耳机(下文中称为“扬声器”)93戴到他/她的耳朵上,并收听被重放的原始语音。收听了固定时间段的原始语音后,用户U停止重放原始语音,并向连接到用户终端200的话筒91发声他/她从原始语音中捕捉的内容。结果,用户终端200将通过话筒91输入的用户语音发送到转录支持设备100。作为响应,转录支持设备100识别接收的用户语音,并将作为语音识别的结果而获取的识别的字符串发送到用户终端200。用户语音的语音识别的结果随后以文本显示在用户终端200的屏幕上。随后,用户U检查显示的文本的内容是否与他/她重发声的原始语音的内容相同,在存在错误识别的部分时,通过从在用户终端200中所包括的键盘92输入修正来对该部分进行修正并编辑语音识别的结果。
图3是示出根据本实施例的转录支持服务的操作屏幕的示例的图。例如如图3所示,显示在用户终端200中的是充当支持借助重发声的文本转录工作的UI(用户界面)的操作屏幕W。例如,根据本实施例的操作屏幕W包括接受语音的重放操作的操作区R1和接受语音识别的结果的编辑操作的操作区R2。
根据本实施例的操作区R1包括UI部件(软件部件),例如指示语音的重放时间的定时计G和借助其来控制语音的重放操作控制按钮B1。因此,在检查原始语音的重放时间时用户能够重放或停止语音,并对从原始语音捕捉的内容进行发声。
根据本实施例的操作区R1进一步包括选择按钮B2,借助该选择按钮B2来选择重放语音的方法(下文中称为“重放模式”)。在本实施例中能够选择两种重放模式,包括“连续”和“断续”(下文中称为“连续模式”和“断续模式”)。连续模式对应于在收听原始语音的同时,用户U稍后执行重发声时使用的重放模式。在用户语音的语音识别的结果准确时,可以以与重放原始语音相同的速度将语音转录为文本,因为在用户以连续模式重发声时没有停止原始语音。另一方面,断续模式对应于在用户U收听原始语音,暂停原始语音,重发声,且随后重新开始语音的重放时使用的重放模式(重复重放和停止的重放模式)。具有低工作熟练程度的用户U有时发现在重发声时,难以在收听原始语音的同时进行发声。因此,在暂停被重放的原始语音,并通过给予他/她用以重发声的时机来促使用户U平稳地发声的同时,能够以断续模式将语音转录为文本。
因此,用户U能够在使用根据工作的熟练程度的重放模式的同时,借助重发声来执行文本转录工作。
根据本实施例的操作区R2包括UI部件,例如在其中编辑文本的文本框TB。图3示出了一个示例,其中,将文本T“我的名字是太郎”(英文是“My name is Taro”)显示为文本框TB中的语音识别的结果。用户U从而可以通过检查显示的文本T的内容是否与重发声的原始语音的内容相同并修正被错误识别的部分,来编辑语音识别的结果。
因此,根据本实施例的转录支持系统1000通过使用前述的结构和UI,提供了支持借助重发声的文本转录工作的转录支持功能。
功能结构
图4是示出根据本实施例的转录支持系统1000的功能结构的示例的图。如图4所示,根据本实施例的转录支持系统1000包括原始语音获取单元11、用户语音获取单元12、用户语音识别单元13、重放控制单元14、文本获取单元15、重放信息获取单元16和重放速度确定单元17。根据本实施例的转录支持系统1000进一步包括语音输入单元21、文本处理单元22、重放UI单元23和重放单元24。
原始语音获取单元11、用户语音获取单元12、用户语音识别单元13、重放控制单元14、文本获取单元15、重放信息获取单元16和重放速度确定单元17中的每一个都是包括在根据本实施例的转录支持设备100中的功能单元。语音输入单元21、文本处理单元22、重放UI单元23和重放单元24中的每一个都是包括在根据本实施例的用户终端200中的功能单元。
用户终端200的功能
根据本实施例的语音输入单元21通过诸如图2中所示的话筒91之类的外部设备,接受从外部输入的语音。在根据本实施例的转录支持系统1000中,语音输入单元21接受借助重发声而输入的用户语音。
根据本实施例的文本处理单元22处理文本编辑。例如,文本处理单元22在图3中所示的操作区R2中显示语音识别结果的文本T。文本处理单元22随后接受编辑操作,例如通过诸如图2中所示的键盘92的外部设备在显示的文本T上执行字符输入/删除。在根据本实施例的转录支持系统1000中,文本处理单元22编辑用户语音的语音识别的结果,以通过接受编辑输入来获得正确的内容,例如被错误识别的部分的修正。
根据本实施例的重放UI单元23接受语音重放操作。例如,重放UI单元23在图3中所示的操作区R1中显示控制按钮B1和选择按钮B2(下文中统称为“按钮B”)。重放UI单元23随后接受指令,以便在通过诸如图2所示的键盘92(或诸如鼠标的指示设备)的外部设备按下所显示的按钮B时,控制语音的重放。在根据本实施例的转录支持系统1000中,重放UI单元23接受控制指令,以便在执行重发声以及用以选择重放模式的指令时,重放/停止原始语音。
根据本实施例的重放单元24重放语音。重放单元24通过诸如扬声器93之类的外部设备输出重放的语音。在根据本实施例的转录支持系统1000中,重放单元24在重发声时输出被重放的原始语音。
转录支持设备100的功能
根据本实施例的原始语音获取单元(第一语音获取单元)11获取要被转录的原始语音(第一语音)。例如,原始语音获取单元11获取保存在存储设备(或外部存储设备)的预定存储区中的原始语音,其中,存储设备包括在转录支持设备100中或连接到它。例如,此时获取的原始语音对应于在会议或演讲记录的语音,例如是在几分钟到几小时中连续记录的一段语音数据。应当注意,原始语音获取单元11可以提供UI功能,通过UI功能用户U可以选择原始语音,像具有图3中所示的操作屏幕W一样。在此情况下,原始语音获取单元11显示一段或多段语音数据作为原始语音的候选,并接受用户U做出的选择的结果。原始语音获取单元11获取依据接受的选择结果而指定的语音数据作为原始语音。
根据本实施例的用户语音获取单元(第二语音获取单元)12在收听到原始语音后,获取用户对句子重发声的语音的用户语音(第二语音),该句子具有与原始语音相同的内容。用户语音获取单元12从包括在用户终端200中的语音输入单元21获取由语音输入单元21输入的用户语音。应当注意,可以借助被动或主动方法来获取用户语音。被动获取在此指代从用户终端200发送的用户语音的语音数据由转录支持设备100接收的方法。另一方面,主动获取指代转录支持设备100请求用户终端200以获取语音数据,并获取暂时保存在用户终端200中的用户语音的语音数据。
根据本实施例的用户语音识别单元13对用户语音执行语音识别过程。就是说,用户语音识别单元13在由用户语音获取单元12获取的语音数据上执行语音识别过程,将用户语音转换为文本T(第一文本),并获取语音识别的结果。用户语音识别单元13随后将获取的文本T作为语音识别的结果发送到包括在用户终端200中的文本处理单元22。应当注意,在本实施例中通过使用现有技术来实现前述的语音识别过程。因此,省略了根据本实施例的语音识别过程的说明。
根据本实施例的重放控制单元14控制原始语音的重放速度。就是说,重放控制单元14控制由原始语音获取单元11获取的语音数据的重放速度。重放控制单元14此时根据由重放速度确定单元17确定的重放速度,通过控制包括在用户终端200中的重放单元24来重放原始语音的语音数据。重放控制单元14进一步按照从用户终端200(重放UI单元23)或用户语音获取单元12接受的操作指令,控制要重放/停止的原始语音,操作指令对应于用以重放或停止原始语音的控制指令(用以重放或停止的控制信号)。
根据本实施例的文本获取单元15获取文本T2(第二文本),所述文本T2是呈现给用户并由用户修正的文本T。文本获取单元15从包括在用户终端200中的文本处理单元22,获取由文本处理单元22编辑的文本T2。在此时获取的文本T2对应于由用户语音识别单元13执行的用户语音的语音识别的结果,并表示与重发声的原始语音的内容相同的字符串,或者具有已经修正错误识别的部分的内容的字符串。注意,可以借助被动或主动方法来获取文本T2。被动获取在此指代由用户终端200编辑并发送的文本T2由转录支持设备100接收的方法。另一方面,主动获取指代一方法,其中,转录支持设备100请求用户终端200以获取文本T2,并获取被编辑并暂时保存在用户终端200中的文本T2。
根据本实施例的重放信息获取单元16获取重放信息,所述重放信息表示原始语音的重放部分。就是说,当重放控制单元14在重发声时已停止被重放的原始语音时,重放信息获取单元16获取作为重放信息的时间信息,其指示用户U收听到的原始语音的重放部分。例如,此时获取的重放信息对应于由表达式(1)表示的时间信息(时间戳信息):
(t_os,t_oe)=(0:21.1,0:39.4)(1)
表达式中的“t_os”部分表示原始语音的重放开始时间,而表达式中的“t_oe”部分表示原始语音的重放停止时间。表达式(1)所指示的是在原始语音的重放在0分21.1秒开始,并在0分39.4秒停止时获取的重放信息。因此,基于由重放控制单元14执行的重放控制的结果,重放信息获取单元16获取作为原始语音的重放信息的时间信息,在其中组合了重放开始时间“t_os”和重放停止时间“t_oe”,及在重发声时重放的原始语音。
根据本实施例的重放速度确定单元17确定在重发声时的原始语音的重放速度。重放速度确定单元17从原始语音获取单元11接收原始语音的语音数据,并从用户语音获取单元12接收用户语音的语音数据。重放速度确定单元17进一步从文本获取单元15接收编辑的文本(第二文本),并从重放信息获取单元16接收原始语音的重放信息。基于从这些功能单元接收的数据,重放速度确定单元17按照由用户U执行的工作的熟练程度,确定重发声时原始语音的适当的重放速度。具体地,重放速度确定单元17基于原始语音的语音数据、用户语音的语音数据、编辑的文本和原始语音的重放信息,来确定由用户U执行的工作的熟练程度。依据确定结果,重放速度确定单元17为每一个用户U确定重发声时原始语音的重放速度。现在,根据本实施例的重放速度确定单元17包括用户语速估计单元171、原始语速估计单元172和速度调整量计算单元173。
细节
现在将针对前述每一个功能单元来详细地说明根据本实施例的重放速度确定单元17的操作。
重放速度确定单元17的细节
用户语速估计单元171
根据本实施例的用户语速估计单元(第二语速估计单元)171估计重发声时用户U的语速(下文中称为“用户语速”)。用户语速估计单元171将作为语音识别的结果而获取的文本T转换为等同于发音单元的音素序列,并执行在音素序列与用户语音之间的强制对齐。在此,用户语速估计单元171依据每单位时间中诸如音素的语言要素出现的数量来指定用户语音中音素序列的位置。用户语速估计单元171由此指定用户语音中用户U的发声部分(下文中称为“用户发声部分”)。用户语音估计单元171随后依据音素序列的长度(文本T中音素的数量)和用户发声部分(第二发声部分)的长度(发声的期间)来估计用户语速(第二语速)。具体地,用户语速估计单元171借助以下过程来估计用户语音的用户语速。
图5是示出根据实施例的在估计用户语速中所执行的过程的示例的流程图。如图5所示,根据本实施例的用户语速估计单元171首先将文本T转换为音素序列(步骤S11)。这个到音素序列的转换通过使用公知技术来执行,所述公知技术例如是到假名的转换,其表示基于字典或上下文的文本的读法。
图6是示出根据实施例的转换为音素序列的示例的图。例如,获取了作为语音识别的结果的文本T“我的名字是太郎”后,用户语速估计单元171将“我的名字是太郎”转换为表示文本的读法的假名,此后将其转换为音素序列。结果,如图6所示,用户语速估计单元171获取包括24个音素(音素的数量)的音素序列“w a t a sh i n o n a m a e w a t a r o o d e s u”。
返回来参考图5中的说明,用户语速估计单元171依据音素序列和用户语音来估计用户语音中的用户发声部分(步骤S12)。在此,用户语速估计单元171通过借助强制对齐,将音素序列与用户语音相关联来估计用户发声部分。
例如,在执行重发声时,用户U不必与开始录音同时开始发声,并与结束录音同时结束发声。因此,有可能记录了在原始语音中被转录的部分的前后的且未被转录的赘词或者在录音环境中捕获的环境噪声。这表示用户语音的录音时间包括用户发声部分以及用户未发声部分。用户语速估计单元171由此估计获取的用户发声部分,以估计准确的用户语速。
图7是示出根据本实施例的用户语音的发声部分(用户发声部分)的图。图7示出了具有4.5秒录音时间的用户语音(t_us=0.0秒到t_ue=4.5秒)。在该时间内,对应于文本“我的名字是太郎”的音素序列的用户发声部分属于从t_uvs=1.1秒到的t_uve=3.2秒的2.1秒内。用户语速估计单元171借助强制对齐来得到在文本“我的名字是太郎”的音素序列与用户语音之间的对应关系,从而估计用户语音中用户U的发声开始时间t_uvs和发声停止时间t_uve。因此,用户语速估计单元171可以准确地估计出用户语音中的用户发声部分持续2.1秒,而不是持续4.5秒,它是包括用户未发声部分的录音时间。
返回来参考图5中的说明,用户语速估计单元171依据音素序列的长度和用户发声部分的长度来估计用户语音中的用户语速V_u(步骤S13)。在此,用户语速估计单元171使用表达式(2)来计算用户语音中用户语速V_u的估计值。
V_u=l_ph/dt_u(2)
表达式中的部分“l_ph”表示文本T的音素序列的长度,而表达式中的部分“dt_u”表示用户发声部分的长度。因此,由表达式(2)计算的用户语速V_u的估计值等于在用户发声部分中每秒发声的音素数量的平均值。例如在本实施例中,用户语速V_u的估计值计算为11.5,用户发声部分的长度dt_u等于2.1秒,文本T的音素序列的长度l_ph等于24个音素。因此,用户语速估计单元171计算用户发声部分中每单位时间的音素数量的平均值,并将计算值作为用户语速V_u的估计值。
原始语速估计单元172
根据本实施例的原始语速估计单元(第一语速估计单元)172估计在重发声时重放的原始语音的语速(下文中称为“原始语速”)。原始语速估计单元172将作为语音识别的结果而获取的文本T转换为等同于发音单元的音素序列。基于重发声时原始语音的重放信息,原始语速估计单元172从原始语音获取假定为对应于文本T的内容的语音的语音数据的数据(下文中称为“原始相关语音”)。注意,文本T的内容对应于原始语音中用户U重发声的内容。原始语速估计单元172执行在音素序列与原始相关语音之间的强制对齐。在此,原始语速估计单元172指定原始相关语音中音素序列的位置。原始语速估计单元172由此指定由用户U重发声的原始相关语音的部分(下文中称为“原始发声部分”)。原始语速估计单元172随后依据音素序列的长度和原始发声部分(第一发声部分)的长度来估计原始语速(第一语速)。具体地,原始语速估计单元172借助以下过程来估计原始语音的原始语速。
图8是示出根据本实施例的在估计原始语速中所执行的过程的示例的流程图。如图8所示,根据本实施例的原始语速估计单元172首先将文本T转换为音素序列(步骤S21)。这个到音素序列的转换按照用户语速估计单元171的情况通过使用已知技术来执行。例如,获取来作为语音识别的结果的文本T“我的名字是太郎”后,原始语速估计单元172将“我的名字是太郎”转换为表示文本的读法的假名,此后将其转换为音素序列。结果,如图6所示,原始语速估计单元172获取包括24个音素(音素数量)的音素序列。
原始语速估计单元172随后基于重放信息从原始语音获取原始相关语音(步骤S22)。
图9是示出根据本实施例的原始语音的发声部分(原始发声部分)的图。图9示出了具有18.3秒重放时间(t_os=21.1秒到t_oe=39.4秒)的原始语音。这个重放时间指在该时间期间,用户U重放/停止原始语音、重发声他/她从原始语音捕捉的内容“我的名字是太郎”,并且完成重发声语音的语音识别。因此,原始语速估计单元172获取作为原始相关语音的、从重放开始时间t_os=21.1秒到重放停止时间t_oe=39.4秒的语音数据。
接下来,原始语速估计单元172依据音素序列和原始相关语音来估计原始相关语音的原始发声部分(步骤S23)。原始语速估计单元172在此通过借助强制对齐将音素序列与原始相关语音相关联来估计原始发声部分。
例如,用户U在重发声时不必对被重放的原始语音的全部内容进行重发声。这是因为原始语音有可能包括不必转录的部分,例如在会议期间查找材料或休息期间聊天的噪声。原始语音的录音时间从而包括要转录的由用户U重发声的原始发声部分,以及用户U未重发声的原始未发声部分,因为不必转录这部分。因此,原始语速估计单元172估计原始发声部分,从而估计准确的原始语速。
图9示出了示例,其中,作为原始语音中的原始相关语音而获取了从重放开始时间t_os=21.1秒到重放停止时间t_oe=39.4秒的语音数据。在该时间内,假定包括对应于文本“我的名字是太郎”的音素序列的语音的原始发声部分在从t_ovs=33.6秒到t_ove=35.0秒的1.4秒内。原始语速估计单元172借助强制对齐来得到在文本“我的名字是太郎”的音素序列与原始相关语音之间的对应关系,由此估计在原始相关语音中用户U的重发声开始时间t_ovs和重发声停止时间t_ove。因此,原始语速估计单元172可以估计原始相关语音中的原始发声部分持续1.4秒,而不是18.3秒,它是包括原始未发声部分的录音时间。
返回来参考图8中的说明,原始语速估计单元172依据音素序列的长度和原始发声部分的长度来估计原始语音中的原始语速V_o(步骤S24)。在此,原始语速估计单元172使用表达式(3)来计算原始相关语音中原始语速V_o的估计值。
V_o=l_ph/dt_o(3)
表达式中的部分l_ph表示文本T的音素序列的长度,而表达式中的部分dt_o表示原始发声部分的长度。因此,由表达式(3)计算的原始语速的估计值V_o等于原始发声部分中每秒由用户重发声的音素的数量的平均值。例如,在本实施例中,将原始语速的估计值V_o计算为18.0,其中,原始发声部分的长度dt_o等于1.4秒,文本T的音素序列的长度l_ph等于24个音素。因此,原始语速估计单元172计算原始发声部分中每单位时间的音素的数量的平均值,并将计算值作为原始语速V_o的估计值。
速度调整量计算单元173
根据本实施例的速度调整量计算单元173根据用户U执行的工作的熟练程度,来计算用于确定在重发声时原始语音的重放速度的调整量。例如,由速度调整量计算单元173计算的调整量乘以每一秒语音的数据采样的数量,从而等于系数值,利用该系数值可以调整速度。
速度调整量计算单元173执行计算过程,所述计算过程对于重发声是原始语音的每一个重放模式是不同的。具体地,当重放模式处于连续模式中时(连续重放),速度调整量计算单元173计算调整量,同时基于从原始语速估计单元172接收的原始语速V_o的估计值与语音识别语速的设定值V_a的比值,来考虑语音识别的准确度。当重放模式处于断续模式中时(断续重放),速度调整量计算单元173基于从用户语速估计单元171接收的用户语速V_u的估计值与从原始语速估计单元172接收的原始语速V_o的估计值的比值,来确定用户U执行的工作的熟练程度,此后根据工作的熟练程度来计算调整量。注意,语音识别语速对应于适合于语音识别的语速,例如可以按照语音识别的学习方法(用户语音识别单元13的识别性能)而预设定(可以按照学习方法而预先提供)。为了方便起见,将本实施例中的语音识别语速V_a的设定值设定为10.0。
(A)连续模式
图10是示出根据本实施例的在连续模式中为重放速度计算调整量时所执行的过程的示例的流程图。如图10所示,根据本实施例的速度调整量计算单元173首先计算语速比(下文中称为“第一语速比”)r_oa,其表示原始语速V_o与语音识别语速V_a的比值(步骤S31)。在此,速度调整量计算单元173通过使用表达式(4)来计算第一语速比r_oa。
r_oa=V_o/V_a(4)
速度调整量计算单元173随后将计算的第一语速比r_oa与阈值(下文中称为“第一阈值”)r_th1相比较,并确定第一语速比r_oa是否大于第一阈值r_th1(步骤S32)。可以将第一阈值r_th1预设为用于确定原始语速V_o是否足够大于语音识别语速V_a的标准(或者可以作为标准预先提供)。为了方便起见,将本实施例中的第一阈值r_th1设定为1.4。
因此,当确定第一语速比r_oa大于第一阈值r_th1时(步骤S32:是),速度调整量计算单元173为重发声时原始语音的重放速度计算调整量“a”(步骤S33)。速度调整量计算单元173此时使用表达式(5)来为重放速度计算调整量“a”。
a=V_a/V_o(5)
另一方面,当第一语速比r_oa小于或等于第一阈值r_th1时(步骤S32:否),速度调整量计算单元173将重发声时原始语音的重放速度的调整量“a”设定为1.0(步骤S34)。
重放速度确定单元17由此依据由调整量计算单元173计算(或设定)的调整量“a”来确定重发声时原始语音的重放速度V(步骤S35)。在此,重放速度确定单元17通过将当前原始语音中每秒的数据采样的数量乘以调整量“a”,并将乘算值设定为调整后的数据采样的数量,来确定重放速度V。
作为响应,重放控制单元14以由重放速度确定单元17确定的重放速度V来重放原始语音。在根据本实施例的转录支持设备100中,如上所述,调整在连续模式中重发声时的原始语音的重放速度V。
现将在使用特定值的同时来说明过程的前述示例。在本实施例中,在步骤S31中执行的计算过程中,以等于18.0的原始语速V_o的估计值,等于10.0的语音识别语速V_a的设定值,将第一语速比r_oa计算为1.8。因此,由在步骤S32中执行的确定过程确定第一语速比r_oa大于第一阈值r_th1(1.8>1.4)。结果,过程继续前进到步骤S33中的计算过程,在此,以等于18.0的原始语速的估计值V_o,等于10.0的语音识别语速V_a的设定值,将用于重放速度V的调整量“a”计算为0.556。因此,以比本实施例中重发声时的当前速度慢的速度44.4%重放原始语音。
另一方面,例如当原始语速的估计值V_o等于12.0时,在步骤S31中执行的计算过程中将第一语速比r_oa计算为1.2。这样由在步骤S32中执行的确定过程确定第一语速比r_oa小于第一阈值r_th1(1.2<1.4)。结果,过程继续前进到步骤S34中的设定过程,在此,将用于重放速度V的调整量“a”设定为1.0。在此情况下,以与执行重发声中的当前速度相同的速度来重放原始语音。
在以连续模式重放语音的情况下,在收听原始语音的同时,用户U稍后执行重发声。此时,用户U以与原始语音相同的语速重发声语音,以便尽可能不在重发声中出现停顿。但也有可能当原始语音是通过记录会议等的普通谈话而获得的语音数据时,原始语音的语速快于适合于语音识别的语速。结果,当用户U以与原始语音相同的语速重发声语音,对应于重发声的用户语音被记录时,识别用户语音的准确度就有可能降低。
如由图10中的过程P1所示的那样,本实施例中的速度调整量计算单元173由此将第一语速比r_oa与第一阈值r_th1相比较,并由比较结果确定原始语速V_o是否适合于语音识别。结果,当原始语速V_o快于语音识别语速V_a,且不适合于语音识别时,速度调整量计算单元173确定重放速度V,借以以接近于语音识别语速V_a的语速重放原始语音。根据本实施例的转录支持设备100因此提供了用户可以在收听原始语音的同时,以调整为适合于语音识别的语速执行转录工作的环境。因此,在根据本实施例的转录支持设备100中,能够准确地识别其中记录了重发声声音的用户语音,从而能够减小用户U的转录工作负担(能够降低转录工作低成本)。
(B)断续模式
图11是示出根据实施例的在断续模式中为重放速度计算调整量时所执行的过程的示例的流程图。如图11所示,根据本实施例的速度调整量计算单元173首先计算语速比(下文中称为“第二语速比”)r_ou,其表示原始语速V_o与用户语速V_u的比值(步骤S41)。速度调整量计算单元173在此使用表达式(6)来计算第二语速比r_ou。
r_ou=V_o/V_u(6)
速度调整量计算单元173随后计算语速比(下文中称为“第三语速比”)r_ua,其表示用户语速V_u与语音识别语速V_a的比值(步骤S42)。在此,速度调整量计算单元173使用表达式(7)来计算第三语速比r_ua。
r_ua=V_u/V_a(7)
速度调整量计算单元173此后将计算的第二语速比r_ou与阈值(下文中称为“第二阈值”)r_th2相比较,并确定第二语速比r_ou是否大于第二阈值r_th2(步骤S43)。注意,第二阈值r_th2可以预设为用于确定原始语速V_o是否足够大于用户语速V_u的标准(可以作为标准预先提供)。为了方便起见,将本实施例中的第二阈值r_th2设定为1.4。
当第二语速比r_ou大于第二阈值r_th2时(步骤S43:是),速度调整量计算单元173确定计算的第三语速比r_ua是否约为1(步骤S44)。在此,速度调整量计算单元173使用条件表达式(C1)来确定第三语速比r_ua是否约为1。
1–e<r_ua<1+e(C1)
表达式中的部分“e”可以预设为用于确定第三语速比r_ua是否约为1的标准的数值范围(可以作为标准的数值范围预先提供)。因此,可以通过在条件表达式(C1)向其设定一个小于1的数值来调整“e”,以使得当第三语速比r_ua在±e的数值范围内约为1时满足条件。为了方便,将本实施例中的“e”设定为0.2。在本实施例中,当第三语速比r_ua大于0.8且小于1.2时满足条件表达式(C1)。
因此,当确定第三语速比r_ua约为1时(步骤S44:是),速度调整量计算单元173将重发声时原始语音的重放速度V的调整量“a”设定为大于1的预定值(步骤S45)。为了方便起见,本实施例中将作为调整量“a”而设定的预定值设定为1.5。
当第二语速比r_ou小于或等于第二阈值r_th2时(步骤S43:否),速度调整量计算单元173确定第二语速比r_ou是否约为1(步骤S46)。在此,速度调整量计算单元173使用条件表达式(C2)来确定第二语速比r_ou是否约为1。
1–e<r_ou<1+e(C2)
表达式中的部分“e”可以预设为用于确定第二语速比r_ou是否约为1的标准的数值范围(可以作为标准的数值范围预先提供)。因此,可以通过在条件表达式(C2)向其设定一个小于1的数值来调整“e”,以使得当第二语速比r_ou在±e的数值范围内约为1时满足条件。为了方便,将本实施例中的“e”设定为0.2。在本实施例中,当第二语速比r_ou大于0.8且小于1.2时满足条件表达式(C2)。
当第二语速比r_ou约为1时(步骤S46:是),速度调整量计算单元173将第三语速比r_ua与阈值(下文中称为“第三阈值”)r_th3相比较,并确定第三语速比r_ua是否大于第三阈值r_th3(步骤S47)。注意,第三阈值r_th3可以预设为用于确定用户语速V_u是否足够大于语音识别语速V_a的标准(可以作为标准预先提供)。为了方便起见,将本实施例中的第三阈值r_th3设定为1.4。
因此,当第三语速比r_ua大于第三阈值r_th3(步骤S47:是)时,速度调整量计算单元173计算重发声时原始语音的重放速度V的调整量“a”(步骤S48)。速度调整量计算单元173在此使用表达式(8)来计算用于重放速度V的调整量“a”。
a=V_a/V_u(8)
当第三语速比r_ua不约为1时(步骤S44:否),速度调整量计算单元173将重发声时原始语音的重放速度V的调整量“a”设定为1.0(步骤S49)。类似地,当第二语速比r_ou不约为1时(步骤S46:否),或者当第三语速比r_ua小于或等于第三阈值r_th3时(步骤S47:否),速度调整量计算单元173将调整量“a”设定为1.0。
重放速度确定单元17由此依据由速度调整量计算单元173计算(或设定)的调整量“a”来确定重发声时原始语音的重放速度(步骤S50)。如同连续模式的情况一样,重放速度确定单元17通过将原始语音每一秒的数据采样的当前数量乘以调整量“a”,并将乘算值设定为调整后的数据采样的数量来确定重放速度V。
作为响应,重放控制单元14以由重放速度确定单元17确定的重放速度V重放原始语音。在根据本实施例的转录支持设备100中,如上所述,调整在断续模式中重发声时的原始语音的重放速度V。
现将在使用特定值的同时来说明过程的前述示例。在本实施例中,在步骤S41中执行的计算过程中,以等于18.0的原始语速V_o的估计值,等于11.5的用户语速V_u的估计值,将第二语速比r_ou计算为1.565。此外,在本实施例中,在步骤S42中执行的计算过程中,以等于11.5的用户语速V_u的估计值,等于10.0的语音识别语速V_a的设定值,将第三语速比r_ua计算为1.15。因此,由在步骤S42中执行的确定过程确定第二语速比r_ou大于第二阈值r_th2(1.565>1.4),由在步骤S44中执行的确定过程确定第三语速比r_ua约为1(0.8<1.15<1.2)。结果,过程推进到步骤S45中的设定过程,其中,将重放速度V的调整量“a”设定为1.5。因此,在本实施例中,以比重发声时的当前速度快1.5倍的速度来重放原始语音。
例如,当原始语速V_o的估计值等于15.0时,在步骤S41中所执行的计算过程中,以等于11.5的用户语速V_u的估计值,将第二语速比r_ou计算为1.304。由步骤S43中执行的确定过程确定第二语速比r_ou小于第二阈值r_th2(1.304<1.4)。作为响应,过程继续前进到步骤S46中的确定过程,在此,确定第二语速比r_ou不约为1(1.304>1.2),同时由步骤47中执行的确定过程确定第三语速比r_ua大于第三阈值r_th3(1.565>1.4)。结果,过程继续前进到步骤S48中的设定过程,在此,以等于11.5的用户语速V_u的估计值,和等于10.0的语音识别语速V_a的设定值,将重放速度V计算为0.87。在此情况下,以比重发声时的当前速度慢13%的速度来重放原始语音。
另一方面,当第三语速比r_ua或第二语速比r_ou不约为1时,过程继续前进到步骤S49中的设定过程,在此,将用于重放速度V的调整量“a”设定为1.0。这也适用于第三语速比r_ua小于或等于第三阈值r_th3的情况下。在此情况下,以与重发声时的当前速度相同的速度重放原始语音。
在以断续模式重放语音时,用户U收听固定时间段的原始语音,随后在暂停原始语音的重放的同时重发声语音。此时,具有高的工作熟练程度的用户U能够在不受原始语音的语速影响的情况下,以适合于用户语音的语音识别的语速重发声语音。因此,优选地增大原始语音的重放速度,从而有效地执行转录工作。
如图11中过程P2所示的那样,本实施例中的速度调整量计算单元173由此将第二语速比r_ou与第二阈值r_th2相比较,并由比较结果确定用户语速V_u是否慢于原始语速V_o。速度调整量计算单元173进一步确定第三语速r_ua是否约为1。就是说,速度调整量计算单元173通过将原始语速V_o与用户语速V_u相比较,来检查用户语速V_u是否比原始语速V_o慢。当用户语速V_u比原始语速V_o慢时,速度调整量计算单元173通过将用户语速V_u与语音识别语速V_a相比较,来进一步检查用户语速V_u与语音识别语速V_a是否彼此近似。当用户语速V_u比原始语速V_o慢,并且与语音识别语速V_a近似时,速度调整量计算单元173从而确定用户U具有高的工作熟练程度,不管原始语音的语速如何,都能够以适合于语音识别的语速的稳定方式重发声语音。作为响应,重放速度确定单元17确定重放原始语音的重放速度,所述重放速度V比当前重放速度快。
采用根据本实施例的转录支持设备100,从而提供了用户能够在收听原始语音的同时执行转录工作,为有效地执行转录工作而调整了所述原始语音的语速的环境。结果,在根据本实施例的转录支持设备100中,可以有效地执行转录工作,从而能够减小具有高工作熟练程度的用户U的转录工作负担(能够降低转录工作的成本)。根据本实施例的转录支持系统1000能够提供针对专家的支持服务。
另一方面,具有低的工作熟练程度的用户U也有可能以受到他/她刚好在重发声前收听的原始语音的语速影响的语速重发声语音。因此当原始语速V_o快于语音识别语速V_a时,用户U有可能以与原始语音相同的语速重发声语音,以至于识别用户语音的准确度降低,对应于重发声的用户语音被记录。
如图11中的过程P3所示,本实施例中的速度调整量计算单元173由此确定第二语速r_ou是否约为1。速度调整量计算单元173进一步将第三语速比r_ua与第三阈值r_th3相比较,并由比较结果确定用户语速V_u是否快于语音识别语速V_a。就是说,速度调整量计算单元173通过将原始语速V_o与用户语速V_u相比较,来检查用户语速V_u与原始语速V_o是否彼此近似。当用户语速V_u与原始语速V_o彼此近似时,速度调整量计算单元173通过将用户语速V_u与语音识别语速V_a相比较,来进一步检查用户语速V_u是否快于语音识别语速V_a。当用户语速V_u与原始语速V_o彼此近似,并且快于语音识别语速V_a时,速度调整量计算单元173从而确定用户U具有低的工作熟练程度,以有可能降低语音识别的准确度,同时又受到原始语音的语速的影响的语速重发声语音。作为响应,重放速度确定单元17确定重放原始语音的重放速度V,所述重放速度V比当前重放速度慢。
采用本实施例的转录支持设备100,由此提供了用户U能够在收听原始语音的同时执行转录工作,调整所述原始语音的语速至适合于语音识别的状态的环境。结果,在根据本实施例的转录支持设备100中,可以准确地识别包括记录的重发声声音的用户语音,从而能够减小具有低的工作熟练程度的用户U的转录工作的负担(能够降低转录工作的成本)。根据本实施例的转录支持系统1000,能够提供针对初学者的支持服务。
总结
如上所述,根据本实施例的转录支持设备100在从用户U接收到操作指令后,重放或停止原始语音。此时,转录支持设备100获取重放信息,其中记录了原始语音的重放开始时间和重放停止时间。根据本实施例的转录支持设备100通过识别用户语音来获取作为语音识别结果的文本T(识别的字符串),用户语音由在收听之后重发声与原始语音相同的内容的用户U输入。根据本实施例的转录支持设备100随后在屏幕上显示文本T,接受从用户U输入的编辑,并获取编辑的文本T2。根据本实施例的转录支持设备100基于原始语音的语音数据、用户语音的语音数据、被编辑的文本T2和与原始语音有关的重放信息,通过确定由用户U执行的工作的熟练程度来确定重发声时的原始语音的重放速度V。根据本实施例的转录支持设备100此后以确定的重放速度V来重放原始语音,所述原始语音在重发声时被重放。
根据本实施例的转录支持设备100由此能够提供将重发声时的原始语音的重放速度V调整为适合于每一个用户U的速度。结果,根据本实施例的转录支持设备100可以支持根据用户U执行的工作的熟练程度,借助重发声的文本转录工作。根据本实施例的转录支持设备100还提供了每一次重放/停止语音时都可以调整重发声时的原始语音的重放速度V的环境。结果,根据本实施例的转录支持设备100可以根据用户U执行的工作的熟练程度二迅速支持工作。根据本实施例的转录支持设备100由此能够实现更大的便利性(或者能够实现极为方便的支持服务)。
实施例的效果
以下进一步说明相关领域的技术以及本实施例的效果。在转录工作中,转录速度通常比原始语音的重放速度慢,因此花费了成本(时间/经济成本)。因此,提出了一种技术,其通过使用语音识别来支持转录工作。但却不能获得具有高准确度的语音识别结果,因为取决于录音环境,原始语音具有混合与其中的噪声。现在,提出了一种系统,其通过识别用户语音实现了准确的语音识别以支持转录工作,所述用户语音由在收听之后重发声与原始语音相同的内容的用户输入。
然而,相关领域中的这种系统具有与重发声时重放原始语音的适当速度有关的以下问题。假定用户在收听了固定时间段后重发声原始语音的使用情形,例如,当原始语音说话较快时,具有低的工作熟练程度的用户倾向于以快速重发声。因此,当用户具有低的工作熟练程度时,会降低识别用户语音的准确度,用户语音对应于记录的重发声声音。因此希望为具有低的工作熟练程度的用户降低重发声时原始语音的重放速度。另一方面,具有高的工作熟练程度的用户可以在不受到原始语音的重放速度的影响的情况下,稳定地重发声语音。因此,具有高的工作熟练程度的用户优选地在收听原始语音的同时以较快语速重发声语音。因此,希望为具有高的工作熟练程度的用户增大重发声时原始语音的重放速度。重发声时原始语音适当的重放速度根据用户执行工作的熟练程度而改变。另一方面,相关领域中的系统不适于按照用户执行工作的熟练程度,将重发声时原始语音的重放速度调整为适当的速度。换言之,相关领域中的系统不单独地为每一个用户支持借助重发声的文本转录工作,由此使用相关领域中的系统的支持服务对于用户是不方便的。
现在,根据本实施例的转录支持设备基于要转录的原始语音、记录了重发声声音的用户语音、通过编辑识别的字符串(第一文本)而获得的文本(第二文本)、及与原始语音有关的重放信息,来确定用户执行工作的熟练程度。根据本实施例的转录支持设备随后依据用户执行工作的熟练程度的确定结果,确定重发声时原始语音的重放速度。就是说,根据本实施例的转录支持设备被构造为根据由用户执行的工作的熟练程度来确定重发声时原始语音的重放速度。
结果,根据本实施例的转录支持设备可以将重发声时的原始语音的重放速度调整为适合于每一个用户的速度。根据本实施例的转录支持设备由此能够支持根据用户执行工作的熟练程度的借助重发声的文本转录工作,从而实现改善了的便利性(实现了便利性提高的支持服务)。
设备
图12是示出根据前述实施例的转录支持设备100的结构示例的图。如图12所示,根据本实施例的转录支持设备100包括CPU(中央处理单元)101、主存储单元102、辅助存储单元103、通信IF(接口)104、外部IF105、和驱动单元107。转录支持设备100中的每一个单元都经由再现B彼此相连。根据本实施例的转录支持设备100由此等同于通常的信息处理设备。
CPU101是算术单元,提供CPU101以执行对设备的总体控制并实现安装功能。主存储设备102是将程序和数据保存在预定存储区中的存储单元(存储器)。例如主存储单元102是ROM(只读存储器)或RAM(随机存取存储器)。辅助存储单元103是包括容量大于主存储单元102的存储区的存储单元。辅助存储单元103是非易失性存储单元,例如HDD(硬盘驱动器),或存储卡。CPU101由此通过从辅助存储单元103将程序或数据读取到主存储单元102上并执行处理,来执行设备上的总体控制并实现安装功能。
通信IF104是将设备连接到数据传输线N的接口,从而允许转录支持设备100执行与通过数据传输线N连接的另一个外部设备(另一个信息处理设备,例如用户终端200)的数据通信。外部IF105是接口,其允许在设备与外部设备106之间发送/接收数据。外部设备106对应于显示器(例如“液晶显示器”),其显示各种信息,例如处理结果,或者输入设备(例如“数字辅助键盘”、“键盘”或“触控板”),例如其接受操作输入。驱动设备107是控制单元,其执行往/来于存储介质108的写/读。例如,存储介质108是软盘(FD)、CD(只读光盘)或DVD(数字多用途盘)。
此外,例如,当通过执行转录支持设备100中的程序,以协作的方式操作前述每一个功能单元时,实现了根据前述实施例的转录支持功能。在此情况下,在将程序记录到存储介质中的同时提供它,存储介质可以由执行环境中的设备(计算机)读取,程序具有可安装或可执行的文件格式。了,在转录支持设备100中,程序具有模块化结构,包括前述每一个功能单元,在此,通过CPU101从存储介质108读取程序,并执行程序,在主存储单元102的RAM中创建每一个功能单元。注意,程序可以由另一种方法来提供,例如程序存储在连接到互联网的外部设备中,并经由数据传输线N下载。可替换地,可以预先包含在主存储单元102或辅助存储单元103的HDD中来提供程序。尽管说明了通过安装软件来实现转录支持功能的示例,但是,例如,在转录支持功能中所包括的每一个功能的部分或全部可以通过安装硬件来实现。
此外,在前述实施例中,说明了转录支持设备100包括原始语音获取单元11、用户语音获取单元12、用户语音识别单元13、重放控制单元14、文本获取单元15、重放信息获取单元16和重放速度确定单元17的结构。可替换地,可以使得结构适于提供前述的转录支持功能,例如其中,转录支持设备100通过通信IF104连接到外部设备,其包括这些功能单元的一部分功能,并执行与连接的外部设备的数据通信,从而允许以协作的方式操作每一个功能单元。具体地,当转录支持设备100执行与外部设备的数据通信以使得以协作的方式操作每一个功能单元时提供前述的转录支持功能,外部设备包括用户语音获取单元12和用户语音识别单元13。例如,根据前述实施例的转录支持设备100由此能够应用于云环境。
尽管说明了特定实施例,但这些实施例仅以示例的方式表示,并非旨在限制本发明的范围。实际上,本文所述的创新实施例可以以各种其他形式来体现;而且,在不脱离本发明精神的情况下,可以在本文所述实施例的形式上做出各种省略、替换和改变。所附权利要求书及其等同形式旨在覆盖将落入本发明的范围和精神内的这些形式或变型。
Claims (11)
1.一种转录支持设备,包括:
第一语音获取单元,所述第一语音获取单元被配置为获取将被转录的第一语音;
第二语音获取单元,所述第二语音获取单元被配置为获取由用户发声的第二语音;
识别器,所述识别器被配置为识别所述第二语音以产生第一文本;
文本获取单元,所述文本获取单元被配置为获取第二文本,所述第二文本通过由用户修正所述第一文本而获得;
信息获取单元,所述信息获取单元被配置为获取重放信息,所述重放信息表示所述第一语音的重放部分;
确定单元,所述确定单元被配置为基于所述第一语音、所述第二语音、所述第二文本和所述重放信息来确定所述第一语音的重放速度;以及
控制器,所述控制器被配置为以所确定的重放速度来重放所述第一语音。
2.根据权利要求1所述的设备,其中,
所述确定单元包括:
第一语速估计单元,所述第一语速估计单元被配置为基于所述第一语音、所述第二文本和所述重放信息来计算与所述第一语音的语速相对应的第一语速的估计值,
第二语速估计单元,所述第二语速估计单元被配置为基于所述第二语音和所述第二文本来计算与所述第二语音的语速相对应的第二语速的估计值,以及
调整量计算器,所述调整量计算器被配置为基于所述第一语速的所述估计值和所述第二语速的所述估计值来计算用以确定所述第一语音的所述重放速度的调整量,并且
所述确定单元通过将所述第一语音中每单位时间的数据采样的数量乘以所述调整量并将乘算值设定为调整后的数据采样的数量来确定所述重放速度。
3.根据权利要求2所述的设备,其中,
所述第一语速估计单元
基于所述重放信息,从所述第一语音获取与所述第二文本相对应的语音,
通过在借助以发音单元来对所述第二文本进行转换而获得的音素序列与所获取的语音之间建立对应关系,而在所获取的语音中指定所述用户在其中发声了的第一发声部分,并且
根据所述音素序列的长度和所述第一发声部分的长度来计算所述第一语速的所述估计值。
4.根据权利要求2所述的设备,其中,
所述第二语速估计单元
通过在借助以发音单元来对所述第二文本进行转换而获得的音素序列与所述第二语音之间建立对应关系,而在所述第二语音中指定所述用户在其中发声了的第二发声部分,并且
根据所述音素序列的长度和所述第二发声部分的长度来计算所述第二语速的所述估计值。
5.根据权利要求2所述的设备,其中,
所述调整量计算器
当所述第一语音的重放方法是连续重放时,基于所述第一语速的估计值和语音识别语速的值来计算所述调整量,所述语音识别语速是为了识别所述第二语音而设定的,并且
当所述第一语音的重放方法是断续重放时,基于所述语音识别语速的设定值、所述第一语速的所述估计值和所述第二语速的所述估计值来计算所述调整量。
6.根据权利要求5所述的设备,其中,在执行所述连续重放时,所述调整量计算器
计算所述第一语速的所述估计值与所述语音识别语速的所述设定值的第一语速比,并且
当所述第一语速比大于第一阈值时,将所述语音识别语速的所述设定值除以所述第一语速的所述估计值,以计算作为所述调整量的除算值。
7.根据权利要求5所述的设备,其中,在执行所述连续重放时,所述调整量计算器
计算所述第一语速的所述估计值与所述语音识别语速的所述设定值的第一语速比;并且
当所述第一语速比小于或等于第一阈值时,将所述调整量设定为1。
8.根据权利要求5所述的设备,其中,在执行所述断续重放时,所述调整量计算器
计算所述第一语速的所述估计值与所述第二语速的所述估计值的第二语速比,以及所述第二语速的所述估计值与所述语音识别语速的所述设定值的第三语速比,并且
当所述第二语速比大于第二阈值且所述第三语速比约为1时,将所述调整量设定为大于1的预定值。
9.根据权利要求5所述的设备,其中,在执行所述断续重放时,所述调整量计算器
计算所述第一语速的所述估计值与所述第二语速的所述估计值的第二语速比以及所述第二语速的所述估计值与所述语音识别语速的所述设定值的第三语速比,并且
当所述第二语速比小于或等于第二阈值且约为1,并且所述第三语速比大于第三阈值时,将所述语音识别语速的所述设定值除以所述第一语速的所述估计值来计算作为所述调整量的除算值。
10.根据权利要求5所述的设备,其中,在执行所述断续重放时,所述调整量计算单元
计算所述第一语速的所述估计值与所述第二语速的所述估计值的第二语速比以及所述第二语速的所述估计值与所述语音识别语速的所述设定值的第三语速比,并且
当满足以下条件中的任意一个条件时将所述调整量设定为1,所述以下条件包括:
所述第三语速比不约为1,
所述第二语速比不约为1,以及
所述第三语速比小于或等于第三阈值。
11.一种转录支持方法,包括:
获取将被转录的第一语音;
获取由用户发声的第二语音;
识别所述第二语音以产生第一文本;
获取第二文本,所述第二文本通过由用户修正所述第一文本而获得;
获取重放信息,所述重放信息表示所述第一语音的重放部分;
基于所述第一语音、所述第二语音、所述第二文本和所述重放信息来确定所述第一语音的重放速度;以及
以所确定的重放速度来重放所述第一语音。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013-124196 | 2013-06-12 | ||
JP2013124196A JP2014240940A (ja) | 2013-06-12 | 2013-06-12 | 書き起こし支援装置、方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104240718A true CN104240718A (zh) | 2014-12-24 |
Family
ID=52019973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410089873.4A Pending CN104240718A (zh) | 2013-06-12 | 2014-03-12 | 转录支持设备和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20140372117A1 (zh) |
JP (1) | JP2014240940A (zh) |
CN (1) | CN104240718A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107039040A (zh) * | 2016-01-06 | 2017-08-11 | 谷歌公司 | 语音识别系统 |
CN108028042A (zh) * | 2015-09-18 | 2018-05-11 | 微软技术许可有限责任公司 | 口头通信的转录 |
WO2019029073A1 (zh) * | 2017-08-07 | 2019-02-14 | 广州视源电子科技股份有限公司 | 传屏方法、装置、电子设备及计算机可读存储介质 |
CN110875056A (zh) * | 2018-08-30 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 语音转录设备、系统、方法、及电子设备 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5404726B2 (ja) * | 2011-09-26 | 2014-02-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
US9432611B1 (en) | 2011-09-29 | 2016-08-30 | Rockwell Collins, Inc. | Voice radio tuning |
US9922651B1 (en) * | 2014-08-13 | 2018-03-20 | Rockwell Collins, Inc. | Avionics text entry, cursor control, and display format selection via voice recognition |
JP5943436B2 (ja) * | 2014-06-30 | 2016-07-05 | シナノケンシ株式会社 | テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム |
CN104267922B (zh) * | 2014-09-16 | 2019-05-31 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
JP6723033B2 (ja) * | 2016-03-09 | 2020-07-15 | 株式会社アドバンスト・メディア | 情報処理装置、情報処理システム、サーバ、端末装置、情報処理方法及びプログラム |
WO2021059968A1 (ja) * | 2019-09-27 | 2021-04-01 | 日本電気株式会社 | 音声認識装置、音声認識方法、およびプログラム |
CN111798868B (zh) * | 2020-09-07 | 2020-12-08 | 北京世纪好未来教育科技有限公司 | 语音强制对齐模型评价方法、装置、电子设备及存储介质 |
CN112750436B (zh) * | 2020-12-29 | 2022-12-30 | 上海掌门科技有限公司 | 一种用于确定语音消息的目标播放速度的方法与设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1277434A (zh) * | 1999-05-28 | 2000-12-20 | 索尼株式会社 | 再现设备和再现方法 |
CN1308329A (zh) * | 1999-11-30 | 2001-08-15 | 索尼公司 | 转录设备和转录方法 |
CN1568501A (zh) * | 2001-10-12 | 2005-01-19 | 皇家飞利浦电子股份有限公司 | 标注所识别文本的部分的校正装置 |
CN1568500A (zh) * | 2001-10-12 | 2005-01-19 | 皇家飞利浦电子股份有限公司 | 用于标注所识别文本的部分的语音识别设备 |
US20060074667A1 (en) * | 2002-11-22 | 2006-04-06 | Koninklijke Philips Electronics N.V. | Speech recognition device and method |
US20090319265A1 (en) * | 2008-06-18 | 2009-12-24 | Andreas Wittenstein | Method and system for efficient pacing of speech for transription |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5305420A (en) * | 1991-09-25 | 1994-04-19 | Nippon Hoso Kyokai | Method and apparatus for hearing assistance with speech speed control function |
US20060149535A1 (en) * | 2004-12-30 | 2006-07-06 | Lg Electronics Inc. | Method for controlling speed of audio signals |
US8756057B2 (en) * | 2005-11-02 | 2014-06-17 | Nuance Communications, Inc. | System and method using feedback speech analysis for improving speaking ability |
US20080177623A1 (en) * | 2007-01-24 | 2008-07-24 | Juergen Fritsch | Monitoring User Interactions With A Document Editing System |
US20130035936A1 (en) * | 2011-08-02 | 2013-02-07 | Nexidia Inc. | Language transcription |
GB2502944A (en) * | 2012-03-30 | 2013-12-18 | Jpal Ltd | Segmentation and transcription of speech |
-
2013
- 2013-06-12 JP JP2013124196A patent/JP2014240940A/ja active Pending
-
2014
- 2014-03-05 US US14/197,694 patent/US20140372117A1/en not_active Abandoned
- 2014-03-12 CN CN201410089873.4A patent/CN104240718A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1277434A (zh) * | 1999-05-28 | 2000-12-20 | 索尼株式会社 | 再现设备和再现方法 |
CN1308329A (zh) * | 1999-11-30 | 2001-08-15 | 索尼公司 | 转录设备和转录方法 |
CN1568501A (zh) * | 2001-10-12 | 2005-01-19 | 皇家飞利浦电子股份有限公司 | 标注所识别文本的部分的校正装置 |
CN1568500A (zh) * | 2001-10-12 | 2005-01-19 | 皇家飞利浦电子股份有限公司 | 用于标注所识别文本的部分的语音识别设备 |
US20060074667A1 (en) * | 2002-11-22 | 2006-04-06 | Koninklijke Philips Electronics N.V. | Speech recognition device and method |
US20090319265A1 (en) * | 2008-06-18 | 2009-12-24 | Andreas Wittenstein | Method and system for efficient pacing of speech for transription |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108028042A (zh) * | 2015-09-18 | 2018-05-11 | 微软技术许可有限责任公司 | 口头通信的转录 |
CN107039040A (zh) * | 2016-01-06 | 2017-08-11 | 谷歌公司 | 语音识别系统 |
WO2019029073A1 (zh) * | 2017-08-07 | 2019-02-14 | 广州视源电子科技股份有限公司 | 传屏方法、装置、电子设备及计算机可读存储介质 |
CN110875056A (zh) * | 2018-08-30 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 语音转录设备、系统、方法、及电子设备 |
CN110875056B (zh) * | 2018-08-30 | 2024-04-02 | 阿里巴巴集团控股有限公司 | 语音转录设备、系统、方法、及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US20140372117A1 (en) | 2014-12-18 |
JP2014240940A (ja) | 2014-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104240718A (zh) | 转录支持设备和方法 | |
CN110299153B (zh) | 声音区间检测装置、声音区间检测方法以及记录介质 | |
US8311832B2 (en) | Hybrid-captioning system | |
US9947313B2 (en) | Method for substantial ongoing cumulative voice recognition error reduction | |
US8560327B2 (en) | System and method for synchronizing sound and manually transcribed text | |
US6792409B2 (en) | Synchronous reproduction in a speech recognition system | |
JP6078964B2 (ja) | 音声対話システム及びプログラム | |
US20120016671A1 (en) | Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions | |
EP3739583B1 (en) | Dialog device, dialog method, and dialog computer program | |
JP7230806B2 (ja) | 情報処理装置、及び情報処理方法 | |
US11183170B2 (en) | Interaction control apparatus and method | |
US20240395256A1 (en) | Automated generation of transcripts through independent transcription | |
JP2013152365A (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
JP2013025299A (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
US20050131691A1 (en) | Aiding visual search in a list of learnable speech commands | |
CN113763921B (zh) | 用于纠正文本的方法和装置 | |
US7092884B2 (en) | Method of nonvisual enrollment for speech recognition | |
WO2021059968A1 (ja) | 音声認識装置、音声認識方法、およびプログラム | |
CN115700877A (zh) | 音频特征检测技术 | |
CN114792521A (zh) | 基于语音识别的智能答复方法及装置 | |
Martens et al. | Word segmentation in the spoken Dutch corpus | |
CN114267339B (zh) | 语音识别处理方法及系统、设备以及存储介质 | |
Pollák et al. | Long recording segmentation based on simple power voice activity detection with adaptive threshold and post-processing | |
JP2002268683A (ja) | 情報処理方法及び装置 | |
JP6387044B2 (ja) | テキスト処理装置、テキスト処理方法およびテキスト処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20141224 |