[go: up one dir, main page]

CN104488027B - 声音处理系统 - Google Patents

声音处理系统 Download PDF

Info

Publication number
CN104488027B
CN104488027B CN201380036292.8A CN201380036292A CN104488027B CN 104488027 B CN104488027 B CN 104488027B CN 201380036292 A CN201380036292 A CN 201380036292A CN 104488027 B CN104488027 B CN 104488027B
Authority
CN
China
Prior art keywords
utterance
speech
translation
voice
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201380036292.8A
Other languages
English (en)
Other versions
CN104488027A (zh
Inventor
杉浦孔明
大熊英男
木村法幸
志贺芳则
林辉昭
水上悦雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Publication of CN104488027A publication Critical patent/CN104488027A/zh
Application granted granted Critical
Publication of CN104488027B publication Critical patent/CN104488027B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

提供一种能够提高声音识别的精度且用户容易利用的声音处理系统。声音处理系统如果接受了讲话声音,则进行声音识别,并显示识别结果的文本(158)。声音处理系统进一步按照设定来将该识别结果翻译成其他语言的文本(176)后进行显示,并且产生其合成声音。声音处理系统进一步使用讲话时的各种传感器的输出、预先完成学习的讲话连续模型、讲话候补的翻译以及声音识别得分,选择作为下一次讲话讲出的概率高且翻译以及声音识别得分也高的讲话候补,作为讲话候补推荐列表(192)来进行推荐。用户能够以该讲话候补推荐列表(192)内的讲话作为启发,考虑下一次讲话。

Description

声音处理系统
技术领域
本发明涉及使用了声音识别的服务,特别涉及户能够顺畅地进行使用 了声音识别的交流的技术。
背景技术
伴随着移动电话特别是所谓智能电话的普及,出现了各种应用程序。 其中,在输入中使用声音的应用程序被认为在今后会进一步得到普及。这 是因为在智能手机这样小的装置中存在难以进行文本输入问题。
在输入中使用声音的应用程序之中,若是仅朗读“是/否(はい/いい ぇ)”等显示于画面的字符串的应用程序,用户不会对应当说什么而感到 迷茫。但是,在例如如声音翻译这样将声音输入用作与他人进行交流的工 具的情况下,由于想不到应该用声音输入什么样的内容才好,所以用户有 时会对应用程序的使用感到犹豫。例如,考虑用户尝试使用声音翻译的应 用程序的情况。在做尝试时,经常会经历到用户没有认真思考应当说的语 言。
进一步地,大多情况下在实际发出声音之前,会发出“嗯”、“啊”之 类的没有含义的声音。在声音识别中,这样没有含义的声音会降低声音识 别的精度。
如上所述,虽然要说些什么但大多情况下却想不到说些什么才好这样 的问题并不限于声音翻译。在多人会话中也可能存在同样的情况。例如, 存在以下情况:虽然正在进行会话,但是话题中断,想不到接下来说些什 么才好。
在专利文献1中公开了一种话题提供装置,用于在多人的会话中,当会话的话题中断时提供话题。该专利文献1公开的系统使用话题数据库,该话题数据库预先将话题和与该话题相关的关键字建立关联后存储,其中,关键字来自于被共同用于多个话题中的观点。准备多个观点。该系统从用户的会话中提取词句,针对多个观点中的每一个观点,计算其权重, 进一步地,针对在最后提示给用户的话题和存储在话题数据库中的话题, 按每个观点计算出相似度,将该相似度乘以针对各观点计算出的权重,并 计算出这些乘法值之和。然后,将该和最大的话题作为新话题而提示给用 户。作为多个观点,可列举相当于所谓“5W1H”的观点。
根据专利文献1,通过该装置,能够提供与成为当前会话的中心的观 点相接近而对于其他观点来说相差较多的话题。
在先技术文献
专利文献
专利文献1:JP特开2011-123530号公报
发明内容
发明要解决的课题
但是,在专利文献1记载的发明中,虽然如果会话的内容丰富到一定 程度就能够确定话题,但是如果会话较短,则存在难以决定应当提供的话 题的问题。特别是,在使用了声音翻译的会话这样讲话非常短的情况下, 很难应用专利文献1记载的发明。
进一步,作为在声音翻译中特有的问题,存在讲话人过多地考虑如何 讲话才能正确地进行声音识别并正确地进行翻译的问题。为此,会迷惑如 何讲、讲些什么,其结果,大多情况下都会降低声音翻译的精度。当然, 如果用户说了容易声音识别且容易自动翻译的话,则对于声音翻译来说是 优选的。但是,为此,会使讲话本身变得困难,所以不能充分地发挥声音 翻译的效果。
因此,本发明提供一种能够提高声音识别的精度且用户容易利用的声 音处理系统以及由这样的声音处理系统利用的终端装置。
本发明的其他目的是提供一种能够提高声音识别的精度和利用声音 识别的结果来提供的声音服务的精度、且用户容易利用的声音处理系统、 以及由这样的声音处理系统利用的终端装置。
用于解决课题的手段
本发明的第1方面涉及的声音处理系统包括:讲话输入部件,用于接 受讲话信息的输入,该讲话信息包含表示讲话的声音信号和表示完成该讲 话的环境的规定环境信息;声音识别部件,用于对讲话输入部件接受的讲 话信息内的声音信号进行声音识别,并将识别结果作为文本来输出;数据 处理部件,对声音识别部件输出的文本执行规定的数据处理;讲话连续模 型存储部件,用于存储以统计方式学习完毕的讲话连续模型,统计方式学习如下:如果接受了讲话的文本和规定环境信息,则能够针对规定的讲话 集合之中的讲话,计算出由文本表示的讲话之后连续讲出的概率;讲话存 储部件,用于存储数据处理部件对规定的讲话集合内的讲话和针对该讲话 集合内的各个讲话进行了处理时的数据处理的可靠度;以及讲话候补推荐 部件,使用讲话输入部件对声音识别部件接受的讲话信息的识别结果和该 讲话信息中包含的环境信息,基于以规定的形式将使用存储在讲话连续模型存储部件中的讲话连续模型对规定集合内的各讲话计算出的概率、和存 储在讲话存储部件中的针对规定集合内的各讲话的数据处理的可靠度进 行组合而得到的评价得分,在多个讲话的集合内,对推荐给进行了声音识 别部件识别出的讲话的用户的讲话候补附加得分,并基于该得分而向用户 推荐讲话候补。
如果讲话输入部件接受讲话信息的输入,则声音识别部件进行针对讲 话信息中的声音信号的声音识别,并输出识别结果的文本。数据处理部件 对该文本进行数据处理。使用识别结果的文本和包含在讲话信息中的环境 信息,讲话候补推荐部件借助讲话连续模型来计算出各讲话成为下一次讲 话的概率,进一步使用该概率和数据处理中的各讲话的可靠度,进行推荐 为下一次讲话的讲话的得分附加,根据该结果推荐下一次讲话候补。
由于推荐了下一次讲话的候补,所以用户能够将该讲话候补作为启发 来考虑下一次讲话。由此,能够降低想不出该讲什么而使得用户感到不知 所措的事态发生的危险性。
优选,数据处理部件包括自动翻译部件,该自动翻译部件受理接受某 讲话后声音识别部件输出的识别结果,将该识别结果自动翻译成与某讲话 的语言不同的其他语言,并作为文本来输出。可靠度是该自动翻译部件的 翻译结果作为相对于某讲话的其他语言的翻译的似然性。
更优选,数据处理部件还包括声音合成部件,该声音合成部件用于基 于自动翻译部件输出的其他语言的文本来对其他语言的声音信号进行合 成。
讲话候补推荐部件也可以包括以下部件,该部件用于基于使用讲话连 续模型对规定集合内的各讲话计算出的概率、与存储在讲话存储部件中的 针对规定集合内的各讲话的可靠度之间的线性和的评价,在多个讲话的集 合内推测声音识别部件进行声音识别的讲话之后的后续讲话的候补。此 时,线性和中的可靠度和概率的系数都是正数。
优选,声音处理系统还包括讲话候补提示部件,该讲话候补提示部件 用于向用户提示由讲话候补推荐部件推荐的下一次的讲话候补。
更优选,声音处理系统还包括讲话文本信息输入部件,该讲话文本信 息输入部件用于接受包含表示讲话的文本和规定环境信息在内的讲话文 本信息的输入,取代声音识别部件的输出而将该讲话文本信息内的文本提 供至讲话候补推荐部件以及数据处理部件。
本发明的第2方面涉及的终端装置包括:包括:麦克风;用于收集与 周围环境相关的信息的传感器的集合;显示装置;通信装置;以及讲话信 息发送部件,与麦克风、传感器的集合以及通信装置连接,用于经由通信 装置,将讲话信息发送到规定的声音处理服务器,并委托声音识别和针对 识别结果的规定的数据处理,其中,讲话信息包含从麦克风接受讲话后输 出的信号中得到的声音信号和从得到该声音信号时的传感器的集合得到 的信息。终端装置还包括:处理结果提示部件,与通信装置连接,且用于 接受响应委托而从声音处理服务器发送来的数据处理的处理结果,并向用 户提示该处理结果;以及讲话候补推荐列表显示部件,从声音处理服务器 接受被推荐为多个讲话候补的讲话候补推荐列表,并通过显示于显示装置 来向用户推荐讲话候补。
优选,声音处理服务器对声音识别的结果进行的规定的数据处理是以 下处理:将讲话自动翻译成与该讲话的语言不同的其他语言,并进一步对 该自动翻译的结果的声音进行合成。从声音处理服务器发送的数据处理的 处理结果是表示由声音处理服务器合成的声音的声音信号。处理结果提示 部件包括:扬声器;以及用于根据表示由声音处理服务器合成的声音的声 音信号来驱动扬声器的部件。
进一步优选,终端装置还包括:选择部件,用户能够为了选择由讲话 候补推荐列表显示部件显示的讲话候补当中的任一个讲话候补,而操作该 选择部件;以及讲话文本信息发送部件,响应于由选择部件选择出讲话候 补推荐列表内的讲话候补当中的任一个讲话候补的情况,经由通信装置, 将包含选择出的讲话候补的文本和从传感器的集合得到的信息在内的讲 话文本信息发送到规定的声音处理服务器,并委托针对该讲话文本信息进行规定的数据处理。
发明效果
如以上所述,根据本发明,能够减小利用声音服务的用户对讲些什么 没有想法而感到不知所措的可能性,并能够使声音服务更易于使用。并且, 在想要讲话之前发出的无意义的声音变少,能够提高声音识别的精度,也 能够提高使用该声音识别结果的声音服务的精度。
其结果,能够提供一种能提高声音识别的精度并且用户易于利用的声 音处理装置以及终端装置。
进一步地,能够提供一种能提高声音识别的精度和使用声音识别结果 的声音服务的精度并且用户易于利用的声音处理装置以及终端装置。
附图说明
图1是示意性表示本发明的第1实施方式涉及的声音翻译系统的整体 结构的图。
图2是示意性表示显示于在图1所示的系统中所使用的便携式终端的 画面上的用于声音翻译的画面的图。
图3是表示在第1实施方式的声音翻译系统中在便携式终端与服务器 之间进行的用于声音翻译的处理序列的图。
图4是表示便携式终端的硬件结构的框图。
图5是表示便携式终端中实现伴随使用了声音输入的声音翻译的处 理的程序的控制构造的流程图。
图6是在第1实施方式的声音翻译系统中执行接受来自多个便携式终 端的声音输入并翻译成指定的语言,进一步对其声音进行合成后送回便携 式终端的处理的服务器的功能性框图。
图7是用于实现图6所示的服务器的功能的程序的流程图。
图8是在图6所示的服务器中使用的进行讲话连续模型的学习和文集 内的讲话的翻译得分的计算的模型生成部的框图。
具体实施方式
在以下的说明以及附图中,对同一部件赋予相同的参照符号。因此, 不重复对这些部件的详细说明。
[第1实施方式]
<结构>
-整体结构-
参照图1,本发明涉及的声音翻译系统100包括:与因特网102连接 且进行声音翻译服务的服务器106;以及能与因特网102连接且安装有用 于利用声音翻译服务的应用程序的便携式终端104。
-应用程序画面-
参照图2,便携式终端104的用于利用声音翻译服务的应用程序画面 130被大体分割成6个区域。即,用于显示成为声音翻译服务的对象的语 言对(源语言和目标语言)的语言显示区域140;用于显示以源语言的声 音输入的语句的声音识别结果或文本输入结果的输入文本显示区域150; 显示对声音识别后的语句进行自动翻译而得到的结果、即文本的翻译结果 显示区域170;显示将翻译结果逆翻成原语言后的语句的逆翻译区域160; 显示推荐为下一次的讲话候补的讲话候补的列表(讲话候补推荐列表)的 讲话候补推荐区域190;以及显示声音翻译系统的利用状况的状态区域 180。
在语言显示区域140,分别采用源语言的文字将源语言的语言名显示 在左侧,将目标语言的语言名显示在右侧。另外,在应用程序画面130 中,翻译结果的语句以外的文本都采用源语言的文字来显示。在源语言名 以及目标语言名之间,显示用于设定声音翻译的语言的组合的设定按钮 142。
在输入文本显示区域150显示:源语言的语言名的显示156;在进行 声音输入时由用户操作的声音输入按钮152;以及用于显示不是采用声音 输入而是直接对输入语句的文本进行输入的文本输入画面的文本输入按 钮154。声音输入的结果以及文本输入的结果都在输入文本显示区域150 内被显示为输入文本158。另外,在本实施方式中,在按压声音输入按钮 152的期间,对声音进行录制。如果中断声音输入按钮152的按压,则结 束声音的录制。
在逆翻译区域160显示:将根据声音输入的结果来生成并被自动翻译 出的目标语言的语句逆翻成源语言的语句而得到的结果的语句162;以及 在对语句进行文本输入等时用于开始该语句的翻译的翻译按钮164。通过 将从所输入的源语言的语句得到的翻译结果进一步逆翻成源语言的语句 而显示于逆翻译区域160内,能够判定翻译是否正确传达了讲话者的意 图。其中,在本实施方式的说明中,为了易于理解实施方式的说明,并不 说明与该逆翻译相关联的功能部分的详细情况。
在翻译结果显示区域170显示:目标语言的语言名174;自动翻译结 果的语句(目标语言的语句)的文本176;以及用于再生文本176的合成 声音的再生按钮172。声音翻译的结果被自动作为合成声音而讲出,在想 要反复听取的情况下操作再生按钮172。
在讲话候补推荐区域190显示:由被推荐为接着刚刚之前的用户的讲 话而发言的可能性高且在自动翻译中受理的可能性高的讲话的讲话构成 的讲话候补推荐列表192;以及与讲话候补推荐列表192的各讲话对应地 显示且用于产生针对各讲话的翻译请求的翻译请求按钮194。
在状态区域180显示利用次数等系统的利用状况和麦克按钮182。麦 克按钮182与声音输入按钮152同样地具有开始录音的功能,但是与声音 输入按钮152不同,如果对麦克按钮182按压一次后放开则开始声音的录 制,如果再次按压麦克按钮182后放开则结束声音的录制。
-声音翻译的序列-
参照图3,说明使用了声音翻译系统100的声音翻译时便携式终端104 与服务器106之间的典型的通信序列。最初,在便携式终端104中进行声 音输入200,生成包含该声音、声音翻译的语言的组合等信息以及从传感 器的集合得到的环境信息的声音识别请求202。声音识别请求202从便携 式终端104被发送到服务器106。服务器106接收到该声音识别请求时进 行声音识别处理220,并输出声音识别结果的文本(在本实施方式中,声 音识别处理220进行统计声音识别处理,假设伴随识别的得分最高的仅有 1个)。作为输入,将该文本提供给自动翻译处理222。自动翻译处理222 将输入的源语言的语句自动翻译成目标语言,并生成目标语言的语句。该 目标语言的语句被提供至声音合成处理224。声音合成处理224根据所提 供的目标语言的语句,合成声音。
另一方面,声音识别处理220的识别结果的文本也与环境信息一起被 提供至讲话候补列表生成处理230。服务器106包括:讲话连续模型226, 是以能够针对讲话集合内的各讲话计算出在所提供的讲话之后讲出的概 率的方式,预先学习完毕的统计模型;以及讲话候补存储部228,用于存 储源语言的讲话的、附加了表示自动翻译处理222的受理容易度的翻译得 分的讲话的集合。在讲话候补列表生成处理230中,使用通过讲话连续模 型226针对讲话集合内的各讲话计算出的概率和存储在讲话候补存储部 228中的每个讲话的翻译得分,选择规定个数在下一次被讲出的可能性高 且翻译得分高的讲话,作为列表来输出。本实施方式中,在该评价中,使 用由某一讲话在下次被讲出的概率与该讲话的翻译得分之间的线性和构 成的评价得分。在该实施方式的情况下,将评价得分高的讲话设为适于下次候补的讲话。因此,该线性和的各系数都为正。该系数的值随着概率的 次序和翻译得分的次序的不同而不同,所以需要基于具体的组合来适当地 确定。
讲话连续模型226以如下方式进行了统计完成学习:如果接受了讲话 的文本和进行该讲话时的环境信息,则能够针对规定的讲话集合之中的讲 话,计算出在由文本表示的讲话之后连续讲出的概率。
声音识别处理220输出的声音识别结果的文本、通过自动翻译处理 222得到的翻译结果的文本、通过声音合成处理224合成的合成声音数据、 以及讲话候补列表生成处理230生成的讲话候补列表都被提供至将这些 数据发送到便携式终端104的发送处理部232。发送处理部232将所提供 的这些数据变换成用于发送的规定的格式,并发送到便携式终端104。
接收到来自发送处理部232的数据的便携式终端104显示接收到的声 音识别结果、自动翻译结果以及讲话候补列表(步骤204)。便携式终端104进一步地进行从发送处理部232接收到的合成声音的讲话(步骤206)。 在讲话后,便携式终端104返回等待接受下一次声音输入200的状态。
另外,如前所述,图3示出的是典型的处理序列。在不是采用声音输 入而是进行了文本输入的情况下,执行与图3所示的处理序列不同的处理 序列。
-便携式终端104-
参照图4,便携式终端104包括:处理器250,其通过执行规定的程 序来控制便携式终端104的各部分,从而实现各种功能;存储器252,其 存储处理器250执行的程序以及该程序的执行所需的数据,也起到处理器 250的作业区域的作用;以及处理器250与后述的各种传感器等之间的接 口254。以下说明的结构要素都能够经由接口254而与处理器250进行通信。
便携式终端104还包括:GPS接收机258,用于通过GPS功能来获 取便携式终端104的位置的经度以及纬度信息;用于检测便携式终端104 的3轴方向的加速度的加速度传感器260、用于检测与便携式终端104的 3轴相关的倾斜度的倾斜度传感器262、检测便携式终端104周围的磁性 的磁性传感器264、检测便携式终端104周围的明亮度的明亮度传感器266、探测便携式终端104的规定位置涉及的压力的压力传感器268以及 检测便携式终端104周围的温度的温度传感器270等多个传感器;麦克风 256;能够通过无线通信经由未图示的基站与因特网102连接的通信装置 272;触摸面板274;与触摸面板274分开设置于便携式终端104的筐体 上的操作按钮276;以及扬声器280。
GPS接收机258、加速度传感器260、倾斜度传感器262、磁性传感 器264、明亮度传感器266、压力传感器268以及温度传感器270等用于 收集表示讲话时的环境的信息。在本实施方式中,声音输入时的这些各种 传感器的输出与声音翻译的语言对等设定信息和从声音得到的ADPCM 声音信号一起以规定的形式被发送到服务器106,作为表示讲话时的环境 的环境信息。这样发送到服务器106的信息是声音翻译请求,该声音翻译 请求请求针对讲话声音的声音识别、和针对声音识别的结果的数据处理即 自动翻译以及翻译结果的声音合成。
实现便携式终端104的功能的各种程序之中,用于利用声音翻译服务 的应用程序具有如下的控制构造。参照图5,如果启动该程序,则进行存 储器区域的确保、以规定的初始值来初始化各存储器位置的初始设定处理 (步骤300)。在初始化完成后,在便携式终端104的触摸面板274,显示 用于声音翻译服务的初始画面(步骤302)。在初始画面中,激活声音输 入按钮152、文本输入按钮154、麦克按钮182以及设定按钮142,使翻 译按钮164以及再生按钮172失效。
接着,等待来自用户的输入,根据进行了什么样的输入来使控制的流 程分支(步骤304)。
如果按压了声音输入按钮(图2的声音输入按钮152),则执行声音 输入处理(步骤310)。声音输入处理通过调取声音输入的API(Application Programming Interface)来进行。接着,对输入的声音进行规定的信号处 理,生成ADPCM(Adaptive Differential PulseCode Modulation)形式的 声音信号(步骤312)。进一步,基于该声音信号、此时的各传感器的输 出以及翻译语言等设定信息,生成声音翻译请求,并发送给服务器106(步 骤314)。之后,从服务器106接收声音识别结果、自动翻译结果、其合 成声音、讲话候补的列表(步骤316),为了将声音识别结果的文本、自 动翻译结果的文本以及讲话候补的列表分别显示于图2的输入文本显示 区域150、逆翻译区域160以及翻译结果显示区域170,保存在规定的存储器区域中(步骤318)。进一步,驱动扬声器280来产生自动翻译结果 的合成声音(步骤320)。即,通过驱动扬声器280,以声音的形式对用户 提示所请求的讲话的翻译结果。最后,进行应用程序画面130的更新(步 骤322),返回到步骤304的输入等待状态。此时,除了激活声音输入按 钮152、文本输入按钮154以及麦克按钮182以外,还激活再生按钮172。
如果在步骤304中按压了文本输入按钮(图2的文本输入按钮154), 则通过调取文本输入的API,接受文本的输入(步骤340),保存所输入 的文本(步骤342),并将所输入的文本显示于输入文本显示区域150以 及逆翻译区域160,由此更新画面(步骤322),然后返回到步骤304。此 时,在更新后的画面中激活翻译按钮164,并使再生按钮172失效。
如果在步骤304中按压了翻译按钮(图2的翻译按钮164),则使用 在步骤340中输入并在步骤342中保存的文本、此时的各种传感器的输出、 以及设定信息,来生成文本翻译请求,并发送到服务器106(步骤360)。 接着,接收针对该请求的翻译结果、翻译结果的合成声音以及讲话候补推 荐列表(步骤362)。将接收到的翻译结果的文本显示于翻译结果显示区 域170(图2)(步骤364),并讲出翻译结果的合成声音(步骤366)。之 后,更新应用程序画面130(步骤322),返回到步骤304。
最后,如果操作了图2所示的设定按钮142,则通过显示为了进行设 定变更而预先准备的画面来受理设定的变更(步骤380),如果设定结束, 则将该设定结果保存到存储器252中(步骤382),并按照变更后的设定 来更新应用程序画面130(步骤322),将控制返回到步骤304。
-服务器106-
参照图6,服务器106具有如下的功能性结构。另外,服务器106通 过作为硬件而具有大容量的外部存储装置的计算机和在该计算机上执行 的声音翻译服务器程序实现。
服务器106包括:接收处理部406,用于经由因特网102(参照图1), 接收来自便携式终端104这样的不确定的多个终端的声音翻译请求以及 文本翻译请求;以及控制部408,用于分析接收处理部406接收到的请求, 并通过按照分析结果将数据提供给规定的功能模块或者输出用于数据选 择的控制信号,从而进行声音翻译的整体控制。服务器106还包括:按语 言分类的声音识别用资源400,是为了进行多个源语言的声音识别以及为 了进行自动翻译中的目标语言语句的生成而预先准备的,且是针对多个语 言分别准备的;按语言对分类的资源402,是为了进行自动翻译而按多个 源语言和多个目标语言的组合的每一个组合而预先准备的;以及按语言分 类的声音合成用资源404,是为了进行声音合成而针对各个目标语言预先 准备的。
在本实施方式中,按语言分类的声音识别用资源400包括用于声音识 别的各语言的统计音响模型、辞典以及统计语言模型。在语言成为目标语 言时,在自动翻译中也使用辞典以及语言模型。因此,服务器106还包括: 选择部410,从按语言分类的声音识别用资源400之中,选择由声音翻译 请求指定的源语言的资源;以及选择部412,从按语言分类的声音识别用 资源400之中,选择由声音翻译请求指定的目标语言的资源。
按语言对分类的资源402包括统计翻译模型,按源语言和目标语言的 每一个组合预先准备该统计翻译模型。服务器106还包括选择部414,该 选择部414从按语言对分类的资源402之中选择由声音翻译请求指定的语 言对的资源。
按语言分类的声音合成用资源404包括进行目标语言的声音合成时 所需的按语言分的资源。如果声音合成是原片连接型,则按语言分类的原 片DB包含在该资源中。服务器106还包括选择部416,该选择部416从 按语言分类的声音合成用资源404之中选择由声音翻译请求指定的目标 语言的资源。
控制部408具有以下功能:基于包含在声音翻译请求中的源语言和目 标语言的组合,对选择部410、选择部412、选择部414以及选择部416, 分别发送控制信号以便选择适当的资源。
服务器106还包括:声音识别引擎418,从控制部408接受声音翻译 请求中的ADPCM数据,使用由选择部410选择出的资源,进行源语言 的声音识别并输出其文本数据;自动翻译引擎422,接受声音识别引擎418 输出的源语言的文本数据,使用由选择部412选择出的目标语言的资源、 和由选择部414选择出的与源语言和目标语言的语言对相对应的资源,将 源语言语句翻译成目标语言语句,并作为文本数据来输出;以及声音合成 处理部424,用于接受自动翻译引擎422输出的目标语言的文本数据,使 用由选择部416选择出的语言资源,进行声音合成。
在声音识别引擎418的输出和自动翻译引擎422的输入之间插入具有 2个输入和与自动翻译引擎422的输入连接的输出的选择部420。在选择 部420的一个输入上连接声音识别引擎418的输出438。向另一个输入输 入从控制部408输出的文本翻译请求中的文本数据440。如前所述,在便 携式终端104中,不仅采用声音输入,还进行文本的输入。在声音输入的 情况下,将作为声音识别引擎418的输出438的文本数据提供至自动翻译 引擎422,在文本输入的情况下,不经由声音识别引擎418,而是直接将 请求中的文本数据440提供至自动翻译引擎422。选择部420选择2个输 入中的哪一个是控制部408查看声音翻译请求的内容后通过切换信号442 来控制的。针对文本翻译请求的处理仅是输入与针对声音翻译请求的处理 不同,自动翻译以后的处理与声音翻译请求的处理相同。因此,在此不重 复针对文本翻译请求的处理的详细的说明。另外,对声音识别引擎418 输出的文本数据、对从控制部408直接提供至选择部420的文本数据都赋 予声音翻译请求中的各种传感器的输出值。
服务器106还包括:为了将附加在声音翻译请求中的各种传感器的输 出值变换成在推测下一次讲话候补时使用的特征量向量的要素值而使用 的要素决定用各种DB430;针对成为对象的多个语言准备的多个讲话连 续模型226的存储装置;针对成为对象的多个语言准备的多个讲话候补存 储部228;以及选择部434及选择部436,用于按照控制部408的控制, 从多个讲话连续模型226以及多个讲话候补存储部228中选择与讲话语言 相对应的模型以及讲话候补存储部,且该选择部434以及选择部436与讲 话概率计算部426以及讲话候补推荐列表生成部428连接。服务器106 还包括:讲话概率计算部426,用于接受选择部420输出的文本数据,使 用要素决定用各种DB430以及讲话连续模型226,针对预先准备的各个讲话计算出成为所提供的讲话的下一次讲话的概率;讲话候补推荐列表生 成部428,用于基于由讲话概率计算部426针对各讲话计算出的概率、和 存储在讲话候补存储部228中的各讲话的翻译以及声音识别得分,从该得 分的上位中选择多个下一次被讲出的可能性高且由自动翻译引擎422受 理(被正确地翻译)的可能性高的讲话,由此生成讲话候补推荐列表;以 及发送处理部432,用于根据自动翻译引擎422输出的翻译结果的文本数 据、声音合成处理部424输出的合成声音、以及讲话候补推荐列表生成部 428生成的讲话候补推荐列表,来组成规定数据格式的反馈数据,向发送 了声音翻译请求的终端(便携式终端104等)进行反馈。
但是,对于讲话连续模型226以及讲话候补存储部228而言,需要预 先准备。为此,设置有模型生成部108。针对模型生成部108的结构将后 述。
参照图7,用于通过由构成服务器106的计算机的硬件执行从而实现 图6所示的控制部408的功能的程序具有如下的控制构造。如果启动该程 序,则包括:首先进行必要的存储区域的确保以及初始化等在启动之后需 要立即执行1次的处理的初始设定步骤450;在初始设定后,等待经由因 特网102从其他的终端装置接收与声音翻译相关的请求的步骤452;以及 根据在步骤452中接收到的请求是什么来使控制的流程分支的步骤454。
如果判定为请求是声音翻译请求,则基于包含在请求中的语言对的信 息,设定源语言和目标语言,并设定图6所示的选择部410、选择部412、 选择部414以及选择部416(步骤460),执行声音识别(步骤462)。如 果声音识别结束,则将结果的源语言的文本作为输入,进行向目标语言的 自动翻译(步骤464)。如果自动翻译结束,则将通过自动翻译得到的输 出的文本作为输入,进行声音合成(步骤466)。进一步,基于在步骤462 中得到的文本数据,生成用于推测下一次讲话的特征量向量(步骤468)。 在生成该特征量向量时,有时使用包含在请求中的原始的传感器输出,有 时使用要素决定用各种DB430(参照图6)将原始的传感器输出变换为其 他范畴的值。例如,虽然GPS的输出是纬度及经度的信息,但是可以将这些信息直接作为特征量向量的要素,也可以将纬度以及经度的信息与存 在于该位置的设施名或包含该位置的地域名之间的对应关系存储在要素 决定用各种DB430中,并在变换为设施名或地域名等之后,将变换后的 值作为特征量向量的要素。利用所生成的特征量向量,使用图6所示的讲 话概率计算部426,推测规定个数的下一次讲出的概率高的讲话候补,进 一步使用图6所示的讲话候补存储部228,根据将各讲话候补的概率和它 们的翻译以及声音识别得分组合而得到的评价得分,选择规定个数的成为 下一次讲话的概率高且翻译得分也高的讲话候补,由此生成讲话候补推荐 列表(步骤470)。最后,向对方终端发送在步骤462中得到的源语言的 声音识别结果、在步骤464中得到的自动翻译结果的文本、在步骤466 中得到的声音合成、在步骤470中得到的讲话候补推荐列表(步骤472), 并将控制返回到步骤452。
另一方面,如果在步骤454中判定为请求是文本翻译请求,则根据包 含在请求中的语言对的设定信息,设定图6所示的选择部410、选择部412、 选择部414以及选择部416(步骤478),将所输入的源语言的文本自动翻 译成目标语言(步骤480)。基于得到的目标语言的文本,对目标语言的 声音进行合成(步骤482),并基于包含在请求中的源语言的输入文本和 环境信息,生成特征量向量(步骤484),通过参照讲话连续模型226,从 而生成由下一次讲出的可能性高且翻译得分也高的讲话候补构成的讲话 候补推荐列表(步骤486)。最后,将在步骤480中得到的目标语言的文 本数据、在步骤482中得到的目标语言的合成声音、和在步骤486中得到 的讲话候补发送到便携式终端(步骤488),并将控制返回到步骤452。
以上是用于实现图6所示的服务器106的程序的控制构造的概况。
需要预先准备图6所示的讲话连续模型226以及存储在讲话候补存储 部228中的讲话候补的集合。图8示出用于此的模型生成部108的结构。 另外,在本实施方式中,作为图6所示的要素决定用各种DB430,包括: GPS/地域信息变换DB518,存储了从GPS得到的纬度/经度信息、与由该 纬度/经度信息确定的国家、地域、州、都道府县、市、镇等地域信息之 间的对应关系;以及IP地址/设施名变换地址DB522,存储了IP地址、 与分配给该IP地址的设施名之间的对应关系。
参照图8,模型生成部108包括含有多个单个语言的讲话文本的文集 510。存储在文集510中的讲话包括该讲话的声音数据和讲话的起始的文 本。起始文本全都被分割成词素等规定的单位,对各单位附加了被称为 DA(Dialog Activity)标签的表示进行讲话时的状况的标签。对各讲话进 一步附加进行该讲话时的日期时间、讲话的用户的用户ID或终端ID、收 集了该讲话时的用户的位置(通过GPS得到的纬度以及经度)、发送来该 讲话的终端的IP地址、终端的各传感器探测到的加速度、倾斜度、磁性、 明亮度、压力、温度等信息。这些信息之中,在因没有对应的传感器等情 况而无法通过便携式终端得到的信息中代入表示没有信息的规定值。
模型生成部108还包括:输入部512,在对包含在文集510中的讲话 数据通过手动进行词素分析、标签附加等处理时,由用户使用该输入部 512;以及基础特征向量生成部514,根据存储在文集510中的各语句, 生成用于生成进行讲话连续模型226的学习用的学习数据的基础特征向 量。基础特征向量生成部514至少针对存储在文集510中的各语句,以规 定的顺序排列附加给这些语句的日期时间、用户ID或终端ID、以及其他 各种传感器信息,进一步生成将下一次讲出的讲话的识别编号作为要素的 向量。
模型生成部108还包括:地域信息附加部516,其进行如下处理,即, 将包含在由基础特征向量生成部514生成的各特征向量中的纬度/经度信 息、与GPS/地域信息变换DB518进行对照,从而得到与该特征向量相对 应的讲话完成的国家、地域、州、都府县、市、镇等地域信息,并插入到 特征向量中的适当的位置;设施信息附加部520,进行如下处理,即,从地域信息附加部516接受特征向量,通过将其中包含的IP地址与IP地址 /设施名变换DB522进行对照,从而得到完成该讲话的设施名,并插入到 特征向量内的适当的位置;特征向量存储部526,用于蓄存从设施信息附 加部520输出的特征向量;以及讲话连续模型学习部524,用于将存储在 特征向量存储部526中的特征向量作为学习数据,进行讲话连续模型226 的统计学习。
模型生成部108还包括:讲话汇总部540,用于对包含在文集510中 的讲话之中相同的讲话进行汇总,从而生成仅由互不相同的讲话构成的集 合;翻译引擎544,将由讲话汇总部540汇总的各个讲话翻译成多个语言, 并针对各讲话输出翻译结果的得分;以及翻译得分计算部542,按每个讲 话对通过由翻译引擎544翻译成多个语言而得到的翻译结果的得分求取 平均,计算出各讲话的平均的翻译得分,并存储至讲话候补存储部228 中。翻译引擎544被假设为进行统计自动翻译,并将翻译结果的似然性设 为翻译得分。可认为翻译得分越高,成为其根源的源语言的讲话越容易翻 译。
模型生成部108还包括:声音识别引擎546,对包含在文集510中的 各讲话的声音数据进行声音识别;以及声音识别得分计算部548,用于对 包含在文集510中的各讲话的起始数据、和针对该讲话的声音识别引擎 546的识别结果进行比较,从而计算出各讲话的声音识别得分,附加到各 讲话中并存储于讲话候补存储部228。
另外,在图8中,作为单一的部分而示出了模型生成部108,但是模 型生成部108需要按翻译的每个源语言来生成。关于翻译引擎544,可以 针对某源语言,使用所有可利用的翻译引擎,并对由它们得出的翻译得分 求取平均,也可以仅将特定的多个语言作为目标语言来计算出翻译得分, 并使用它们的平均。也可以根据情况,使用仅将某单一语言设为目标语言 的翻译引擎544。
<动作>
-概要-
该声音翻译系统100按照以下方式进行动作。服务器106具有两个动 作阶段。第1是基于模型生成部108的讲话连续模型226以及讲话候补存 储部228的学习,第2是使用了学习结束的讲话连续模型226以及讲话候 补存储部228的声音翻译服务的执行。以下,首先说明学习阶段的服务器 106的动作,接着说明声音翻译服务阶段的便携式终端104和服务器106 的动作。
-学习-
需要预先进行讲话连续模型226、以及存储在讲话候补存储部228中 的各讲话的翻译及声音识别得分的学习。为此,首先,针对成为处理对象 的所有语言,按每个语言分别汇集语句来生成文集510。针对文集510内 的各语句,预先进行词素分析等,虽然如果进行DA标签的赋予等是优选 的,但是根据需要,使用输入部512进行这样的处理。
针对包含在某语言的文集510(包括声音数据和起始文本这两者)中 的各语句,进行以下处理。即,使用附加给该语句的信息,通过基础特征 向量生成部514(图8)生成基础的特征向量。此时,基于附加给各讲话 的用户ID以及讲话的日期时间的信息,确定在某讲话的下一次讲出哪一 个讲话,将确定下一次讲话的信息代入特征向量内的适当的位置的要素 中。接着,通过将包含在各特征向量中的纬度/经度信息与GPS/地域信 息变换DB518进行对照,从而根据纬度/经度信息,得到国家、地域、州、 都府县、市、镇等地域信息,并代入特征向量中的适当的要素中。在没有 对应的信息的情况下,将表示没有该信息的情况的特定值代入该要素(针 对其他要素也是同样的)。进一步,通过将包含在特征向量中的IP地址与 IP地址/设施名变换DB522进行对照,从而将收录了该讲话的IP地址变 换成与该IP地址对应的设施名,并代入特征向量的适当的要素中。这样, 将特征向量存储至特征向量存储部526中。
如果完成向特征向量存储部526存储特征向量,则讲话连续模型学习 部524执行讲话连续模型226的统计学习处理,或者与存储并行地执行讲 话连续模型226的统计学习处理。通过该统计学习,能够得到如下的讲话 连续模型226:如果给出以讲话日期时间、用户ID、IP地址、纬度/经度 信息、各种传感器的值作为要素的某讲话的特征向量,则能够针对各讲话 计算出在该讲话的下一次讲出的概率。这些讲话连续模型226优选存储至 非易失性的存储装置中。
另一方面,讲话汇总部540汇总包含在文集510中的各讲话之中的相 同的讲话,作为文本。翻译得分计算部542通过将汇总后的各讲话提供至 翻译引擎544,从而计算出该讲话的翻译得分。此时,在本实施方式中, 准备作为翻译引擎544来翻译到各目标语言的统计量,并将根据这些量得 到的翻译结果的似然性的平均设为该讲话的翻译得分。翻译得分计算部 542针对各源语言生成由针对各讲话得到的翻译得分构成的翻译得分 DB,并保存至讲话候补存储部228。以上,讲话连续模型226以及翻译 得分DB的学习结束。进一步地,通过声音识别引擎546以及声音识别得 分计算部548,计算出包含在文集510中的各语句的声音识别时的声音识 别得分。即,声音识别引擎546进行针对各语句的声音数据的声音识别。声音识别得分计算部548对声音识别引擎546的声音识别结果和预先附加 到该语句的起始语句进行比较,从而计算出该语句的声音识别得分。该声 音识别得分按保存在文集510中的各讲话而存储至讲话候补存储部228。 其结果,能够使用存储在讲话候补存储部228中的信息,计算出存储在文 集510中的各讲话的翻译以及声音识别得分。
-声音翻译服务-
需要预先对便携式终端104等分配如图2所示的声音翻译应用程序。 在本实施方式中,能够连接便携式终端104的服务器106是根据声音翻译 应用程序来固定的。当然,如果服务器106有多个,则也可以由用户从其 中选择期望的服务器。
在想要利用服务器106的声音翻译服务的情况下,对用户来说大致存 在2个选择分支。第1个是声音翻译,第2个是文本翻译。以下,首先说 明利用声音翻译服务时的用户的操作以及便携式终端104及服务器106 的动作,接着说明利用文本翻译时的用户的操作以及便携式终端104及服 务器106的动作。另外,在此之前,用户需要通过操作图2的设定按钮142来调取设定画面,选择自己想要利用的源语言和目标语言的组合。
在想要进行声音翻译的情况下,对用户来说存在2种方法。第1种是 以下方法:按压声音输入按钮152,并在按压期间讲话,讲话结束后放开 声音输入按钮152。第2种是:通过按压麦克按钮182来开始声音的录制 并进行讲话,在讲话结束后通过再次按压麦克按钮182来结束声音的录 制。不论选择哪一种方法,程序都能够在图5的步骤310以及步骤312中,通过调取与所选择的处理相对应的API,来进行声音的录制和信号处 理,生成规定形式的声音数据。
如果声音的录制结束(如果放开声音输入按钮152,或者在声音的录 制执行中再次按压麦克按钮182),则进行图5所示的步骤314的处理, 将声音翻译的请求命令、基于设定的声音对的信息、声音数据以及环境信 息发送到服务器106。在该请求中附加有基于设定的语言对的信息、讲话 日期时间、用户的识别信息以及由GPS接收机258、加速度传感器260、 倾斜度传感器262、磁性传感器264、明亮度传感器266、压力传感器268 以及温度传感器270的输出构成的环境信息。
服务器106如果接收到该声音翻译请求(图7的步骤452),则按照 请求中的语言对信息来选择语言对(步骤454至步骤460),并按照选择 出的语言的组合来控制选择部410、选择部412、选择部414、选择部416、 选择部434以及选择部436,选择适当的要素。服务器106进一步进行声 音识别(步骤462)、针对声音识别结果的自动翻译(步骤464)、针对翻 译结果的声音合成(步骤466)。之后,服务器106根据声音识别的结果 和附加到声音翻译请求中的各种信息,生成输入讲话的特征向量(步骤 468),使用讲话连续模型226以及讲话候补存储部228内的各讲话的翻译 以及声音识别得分,生成由下一次讲出的可能性高且翻译以及声音识别得 分也高的讲话候补构成的讲话候补推荐列表(步骤478)。服务器106在 最后将声音识别结果、翻译结果的文本数据、其合成声音、讲话候补推荐 列表发送到便携式终端104(步骤472)。如果该处理结束,则服务器106 转移到下一次的请求处理(步骤452)。
参照图2,便携式终端104如果受理来自服务器106的反馈(图5的 步骤316),则将声音识别结果显示于输入文本显示区域150,将自动翻译 结果的文本显示于翻译结果显示区域170,并将讲话候补推荐列表192以 及翻译请求按钮194显示于讲话候补推荐区域190(步骤318),进一步地 通过按照合成声音数据来驱动扬声器280,由此进行讲话(步骤320)。根 据步骤318的结果来更新画面(步骤322),并返回到用户的操作等待状 态(步骤304)。
在用户下一次讲话时,能够参考显示于讲话候补推荐区域190的讲话 候补推荐列表。由于并不是在什么都没有的状态下考虑下一次的讲话,而 是能够关注具体的语句进行下一次讲话,所以用户不会感到不知所措。进 一步地,由于作为讲话,显示接着之前的讲话讲出的可能性高的讲话,所 以用户在操作便携式终端104时应当回想的事项少的可能性高。并且,显 示于讲话候补推荐列表的讲话由于翻译以及声音识别得分高,所以如果进 行了学习该讲话的讲话,则在进行声音翻译时,声音识别的结果正确的可 能性变高,进一步地,使用了该结果的自动翻译的结果作为目标语言的讲 话而成为正确的讲话的可能性也变高。因此,能够无误解且顺畅地推进便 携式终端104的用户和其他语言的用户之间的对话。
在本实施方式中,显示于讲话候补推荐列表192的翻译请求按钮194 都起到产生针对相对应的讲话的翻译请求的按钮的作用。即,如果用户按 压与讲话候补中的任一个文本相对应的翻译请求按钮194,则将该文本选 择为下一次讲话并发送到服务器106,作为下一次自动翻译的对象。
在文本翻译的情况下,便携式终端104如以下方式进行动作。参照图 2,用户操作文本输入按钮154,调取文本输入画面。在便携式终端104 中,在图5所示的流程图中,调取步骤304至步骤340。如果文本的输入 结束,则用户按压结束文本输入的按钮(在图2中未图示)。便携式终端 104保存所输入的文本(步骤342),并更新画面,以便将所输入的文本显示于输入文本显示区域150(步骤322)。如果用户进一步按压翻译按钮 164,则在图5中执行步骤304~360的处理,生成文本翻译请求,并发送 到服务器106。在该请求中附加文本翻译命令、与基于设定的语言对相关 的信息、所输入的源语言的文本数据、按压翻译按钮164时的日期时间及 用户的识别信息、以及各种传感器的输出。
服务器106如果接收到该请求,则通过图7所示的步骤454、478、480、482、484、486的途经,将输入文本翻译成目标语言,并对其声音 进行合成。服务器106进一步根据输入文本和附加到文本翻译请求中的各 种信息,生成特征向量,使用存储在讲话连续模型226以及讲话候补存储 部228中的各讲话的翻译得分,生成由作为下一次讲话的可能性高且翻译得分也高的源语言的讲话列表构成的讲话候补推荐列表。并且,向便携式 终端104反馈翻译结果文本、其合成声音以及讲话候补推荐列表。
便携式终端104如果接受了该反馈,则将翻译结果文本显示于翻译结 果显示区域170,并将讲话候补推荐列表192以及翻译请求按钮194显示 于讲话候补推荐区域190。
由于在该情况下,也与声音翻译时同样地,将用户考虑下一次讲话用 的讲话候补推荐列表显示于讲话候补推荐区域190,所以即便是采用声音 进行下一次讲话,还是进行按钮输入,都不会感到不知所措,能够容易考 虑下一次的讲话。
如以上所述,根据本实施方式,在进行声音翻译的声音翻译系统100 中,在便携式终端104的用户讲话之后,考虑下一次讲话时,将讲话候补 推荐列表显示于便携式终端104的画面上。被显示的讲话候补都是接着先 前的讲话讲出的可能性高且在翻译时被正确翻译的可能性高的候补。因 此,用户通过参考这些讲话候补来考虑下一次的讲话,能够顺畅地继续与 对方的对话,并且能够在相互交流中减少因误译产生误解的可能性。
本次公开的实施方式仅是例示,本发明并不仅限于上述实施方式。本 发明的范围在参考发明的详细说明的记载的基础上,由权利要求书的各项 示出,包括与记载于权利要求书的用语同等的意思以及范围内的所有变 更。
工业上的可利用性
本发明能够利用于对多人特别是以不同的语言作为母语的人之间的 交流进行辅助的终端装置。
符号说明
100 声音翻译系统
104 便携式终端
106 服务器
108 模型生成部
130 应用程序画面
140 语言显示区域
150 输入文本显示区域
160 逆翻译区域
180 状态区域
190 讲话候补推荐区域
192 讲话候补推荐列表
220 声音识别处理
222 自动翻译处理
224 声音合成处理
226 讲话连续模型
228 讲话候补存储部
230 讲话候补列表生成处理
232 发送处理部
418 声音识别引擎
422 自动翻译引擎
424 声音合成处理部
426 讲话概率计算部
428 讲话候补推荐列表生成部

Claims (6)

1.一种声音处理系统,包括:终端装置和声音处理服务器,其中,
所述终端装置包括:讲话输入部件,用于接受讲话信息的输入,该讲话信息包含表示讲话的声音信号和表示完成该讲话的环境的规定环境信息,
所述声音处理服务器包括:
声音识别部件,用于对所述讲话输入部件接受的讲话信息内的声音信号进行声音识别,并将识别结果作为文本来输出;
数据处理部件,对所述声音识别部件输出的文本执行规定的数据处理;
讲话连续模型存储部件,用于存储以统计方式学习完毕的讲话连续模型,统计方式学习完毕的讲话连续模型如下:如果接受了讲话的文本和所述规定环境信息,则能够针对规定的讲话集合之中的讲话,计算出由所述文本表示的讲话之后连续讲出的概率;
讲话存储部件,用于存储所述数据处理部件对所述规定的讲话集合内的讲话和针对该讲话集合内的各个讲话进行了处理时的数据处理的可靠度;以及
讲话候补推荐部件,使用所述声音识别部件对所述讲话输入部件接受的讲话信息的识别结果和该讲话信息中包含的环境信息,基于以规定的形式将使用存储在所述讲话连续模型存储部件中的所述讲话连续模型对所述规定集合内的各讲话计算出的概率和存储在所述讲话存储部件中的针对所述规定集合内的各讲话的所述数据处理的可靠度进行组合而得到的评价得分,在多个所述讲话的集合内,对推荐给进行了所述声音识别部件识别出的讲话的用户的讲话候补附加得分,并基于所附加的得分而向用户推荐讲话候补。
2.根据权利要求1所述的声音处理系统,其中,
所述数据处理部件包括自动翻译部件,该自动翻译部件受理接受某讲话后所述声音识别部件输出的识别结果,将该识别结果自动翻译成与所述某讲话的语言不同的其他语言,并作为文本来输出,
所述可靠度是该自动翻译部件的翻译结果作为相对于所述某讲话的所述其他语言的翻译的似然性。
3.根据权利要求2所述的声音处理系统,其中,
所述数据处理部件还包括声音合成部件,该声音合成部件用于基于所述自动翻译部件输出的所述其他语言的文本来对所述其他语言的声音信号进行合成。
4.根据权利要求1~3中任一项所述的声音处理系统,其中,
所述讲话候补推荐部件包括以下部件,该部件用于基于使用所述讲话连续模型对所述规定集合内的各讲话计算出的概率与存储在所述讲话存储部件中的针对所述规定集合内的各讲话的可靠度之间的线性和的评价,在多个所述讲话的集合内推测所述声音识别部件进行声音识别的讲话之后的后续讲话的候补,
所述线性和中的所述可靠度和所述概率的系数都是正数。
5.根据权利要求1~3中任一项所述的声音处理系统,其中,
所述声音处理系统还包括讲话候补提示部件,该讲话候补提示部件用于向用户提示由所述讲话候补推荐部件推荐的讲话候补。
6.根据权利要求1~3中任一项所述的声音处理系统,其中,
所述声音处理系统还包括讲话文本信息输入部件,该讲话文本信息输入部件用于接受包含表示讲话的文本和所述规定环境信息在内的讲话文本信息的输入,取代所述声音识别部件的输出而向所述讲话候补推荐部件以及所述数据处理部件提供该讲话文本信息内的文本。
CN201380036292.8A 2012-07-09 2013-07-01 声音处理系统 Expired - Fee Related CN104488027B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012153941A JP5967569B2 (ja) 2012-07-09 2012-07-09 音声処理システム
JP2012-153941 2012-07-09
PCT/JP2013/068007 WO2014010450A1 (ja) 2012-07-09 2013-07-01 音声処理システム及び端末装置

Publications (2)

Publication Number Publication Date
CN104488027A CN104488027A (zh) 2015-04-01
CN104488027B true CN104488027B (zh) 2018-03-30

Family

ID=49915914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380036292.8A Expired - Fee Related CN104488027B (zh) 2012-07-09 2013-07-01 声音处理系统

Country Status (6)

Country Link
US (1) US9824687B2 (zh)
JP (1) JP5967569B2 (zh)
CN (1) CN104488027B (zh)
DE (1) DE112013003444T5 (zh)
GB (1) GB2518318A (zh)
WO (1) WO2014010450A1 (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9640173B2 (en) * 2013-09-10 2017-05-02 At&T Intellectual Property I, L.P. System and method for intelligent language switching in automated text-to-speech systems
US20160164813A1 (en) * 2014-12-04 2016-06-09 Intel Corporation Conversation agent
KR102324074B1 (ko) * 2015-04-08 2021-11-09 삼성전자주식회사 사운드 출력 제어 방법 및 전자 장치
US20170308526A1 (en) * 2016-04-21 2017-10-26 National Institute Of Information And Communications Technology Compcuter Implemented machine translation apparatus and machine translation method
JP2017199363A (ja) * 2016-04-21 2017-11-02 国立研究開発法人情報通信研究機構 機械翻訳装置及び機械翻訳のためのコンピュータプログラム
KR102565274B1 (ko) 2016-07-07 2023-08-09 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
WO2018008227A1 (ja) * 2016-07-08 2018-01-11 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法
JP6342972B2 (ja) * 2016-11-15 2018-06-13 株式会社日立情報通信エンジニアリング コミュニケーションシステム及びそのコミュニケーション方法
US10431216B1 (en) * 2016-12-29 2019-10-01 Amazon Technologies, Inc. Enhanced graphical user interface for voice communications
US11582174B1 (en) 2017-02-24 2023-02-14 Amazon Technologies, Inc. Messaging content data storage
US10547729B2 (en) 2017-03-27 2020-01-28 Samsung Electronics Co., Ltd. Electronic device and method of executing function of electronic device
US11900072B1 (en) * 2017-07-18 2024-02-13 Amazon Technologies, Inc. Quick lookup for speech translation
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、系统及存储介质
KR102411124B1 (ko) * 2017-10-27 2022-06-21 삼성전자주식회사 전자 장치 및 전자 장치에서 외부 장치를 이용한 태스크 수행 방법
CN109840062B (zh) * 2017-11-28 2022-10-28 株式会社东芝 输入辅助装置以及记录介质
JP2019106054A (ja) * 2017-12-13 2019-06-27 株式会社東芝 対話システム
CN108364653B (zh) * 2018-02-12 2021-08-13 王磊 语音数据处理方法及处理装置
JP7163035B2 (ja) * 2018-02-19 2022-10-31 株式会社東芝 音響出力システム、音響出力方法及びプログラム
JP6916130B2 (ja) * 2018-03-02 2021-08-11 株式会社日立製作所 話者推定方法および話者推定装置
US10930278B2 (en) * 2018-04-09 2021-02-23 Google Llc Trigger sound detection in ambient audio to provide related functionality on a user interface
US10929098B2 (en) * 2018-08-17 2021-02-23 The Toronto-Dominion Bank Methods and systems for conducting a session over audible and visual interfaces
US11481189B2 (en) 2018-08-17 2022-10-25 The Toronto-Dominion Bank Methods and systems for transferring a session between audible and visual interfaces
WO2020122972A1 (en) * 2018-12-14 2020-06-18 Google Llc Voice-based interface for a networked system
JP2020144274A (ja) * 2019-03-07 2020-09-10 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
US11061638B2 (en) 2019-09-17 2021-07-13 The Toronto-Dominion Bank Dynamically determining an interface for presenting information to a user
CN111368559A (zh) * 2020-02-28 2020-07-03 北京字节跳动网络技术有限公司 语音翻译方法、装置、电子设备及存储介质
CN111401323A (zh) * 2020-04-20 2020-07-10 Oppo广东移动通信有限公司 文字翻译方法、装置、存储介质及电子设备
CN115668205A (zh) * 2020-06-11 2023-01-31 谷歌有限责任公司 使用规范话语用于文本或话音通信
CN112084318B (zh) * 2020-09-25 2024-02-20 支付宝(杭州)信息技术有限公司 一种对话辅助方法、系统及装置
CN115394288B (zh) * 2022-10-28 2023-01-24 成都爱维译科技有限公司 民航多语种无线电陆空通话的语种识别方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1842787A (zh) * 2004-10-08 2006-10-04 松下电器产业株式会社 对话支援装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4156080B2 (ja) * 1998-06-30 2008-09-24 株式会社デンソー 要求推定装置
JP4135307B2 (ja) * 2000-10-17 2008-08-20 株式会社日立製作所 音声通訳サービス方法および音声通訳サーバ
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP3991914B2 (ja) * 2003-05-08 2007-10-17 日産自動車株式会社 移動体用音声認識装置
US9214001B2 (en) * 2007-02-13 2015-12-15 Aspect Software Inc. Automatic contact center agent assistant
US8620662B2 (en) * 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
WO2011036769A1 (ja) * 2009-09-25 2011-03-31 株式会社東芝 翻訳装置、及びプログラム
JP5397198B2 (ja) 2009-12-08 2014-01-22 日本電気株式会社 話題推薦装置、話題推薦装方法およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1842787A (zh) * 2004-10-08 2006-10-04 松下电器产业株式会社 对话支援装置

Also Published As

Publication number Publication date
WO2014010450A1 (ja) 2014-01-16
JP5967569B2 (ja) 2016-08-10
CN104488027A (zh) 2015-04-01
DE112013003444T5 (de) 2015-04-16
US20170148436A1 (en) 2017-05-25
JP2014016475A (ja) 2014-01-30
US9824687B2 (en) 2017-11-21
GB2518318A (en) 2015-03-18

Similar Documents

Publication Publication Date Title
CN104488027B (zh) 声音处理系统
US12249316B1 (en) Speech recognition services
JP6588637B2 (ja) 個別化されたエンティティ発音の学習
CN110998720B (zh) 话音数据处理方法及支持该方法的电子设备
KR102108500B1 (ko) 번역 기반 통신 서비스 지원 방법 및 시스템과, 이를 지원하는 단말기
US9721570B1 (en) Outcome-oriented dialogs on a speech recognition platform
US8560326B2 (en) Voice prompts for use in speech-to-speech translation system
CN105336326A (zh) 用于使用上下文信息的语音识别修复的方法和系统
CN102549654A (zh) 语音翻译系统、控制装置以及控制方法
TW200813812A (en) Methods and apparatus for improved voice recognition and voice recognition systems
KR20200080400A (ko) 페르소나에 기반하여 문장을 제공하는 방법 및 이를 지원하는 전자 장치
KR20210036527A (ko) 사용자 발화를 처리하는 전자 장치 및 그 작동 방법
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
KR20190122457A (ko) 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법
CN117809641A (zh) 一种终端设备及基于查询文本改写的语音交互方法
CN111556999A (zh) 通过即时提供实质性回答以提供自然语言对话的方法、计算机装置及计算机可读存储介质
US10002611B1 (en) Asynchronous audio messaging
JP6832503B2 (ja) 情報提示方法、情報提示プログラム及び情報提示システム
WO2021064947A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP2004029457A (ja) 音声対話装置、および音声対話プログラム
JP2021144170A (ja) 情報処理方法及び情報処理装置
CN118541751A (zh) 提供语音合成服务的方法及其系统
Phillips et al. “Why Tap When You Can Talk?”: Designing Multimodal Interfaces for Mobile Devices that Are Effective, Adaptive and Satisfying to the User

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180330

Termination date: 20210701

CF01 Termination of patent right due to non-payment of annual fee