CN108074562B - 语音识别装置、语音识别方法以及存储介质 - Google Patents
语音识别装置、语音识别方法以及存储介质 Download PDFInfo
- Publication number
- CN108074562B CN108074562B CN201710759611.8A CN201710759611A CN108074562B CN 108074562 B CN108074562 B CN 108074562B CN 201710759611 A CN201710759611 A CN 201710759611A CN 108074562 B CN108074562 B CN 108074562B
- Authority
- CN
- China
- Prior art keywords
- symbol
- input
- output
- additional
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 62
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 14
- 230000010365 information processing Effects 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 34
- 230000004048 modification Effects 0.000 description 15
- 238000012986 modification Methods 0.000 description 15
- 239000000945 filler Substances 0.000 description 13
- 238000000605 extraction Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 239000012634 fragment Substances 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供一种语音识别装置、语音识别方法以及存储介质,识别语音信号中所包含的语言信息以及语言信息中所附带的副语言信息和/或非语言信息。实施方式的语音识别装置具备计算部、搜索部、附加符号取得部和输出部。搜索部通过搜索对得分矢量序列中的似然度高的声学得分进行追溯的输入符号的路径而生成输入符号串,根据输入符号串中所包含的输入符号之中的表示识别对象的语言信息的识别对象符号,生成表示语音信号的识别结果的输出符号。附加符号取得部从输入符号串中的与输出符号对应的范围中所包含的输入符号中,取得表示副语言信息和/或非语言信息的附加符号。输出部将输出符号与所取得的附加符号对应关联地进行输出。
Description
技术领域
本发明的实施方式涉及语音识别装置、语音识别方法以及存储介质。
背景技术
已知能够与语言信息同时地评价填充语(filler)以及重言(stammering)等的声学模型。在使用了这样的声学模型的语音识别系统中,能够去除填充语以及重言等来进行语音识别,所以能够提高识别精度。
但是,在去除了填充语以及重言等的情况下,使用识别结果的应用无法检测附加有填充语或者重言等的单词。因此,使用语音识别结果的应用无法进行使用了填充语以及重言等的信息处理。
发明内容
发明想要解决的课题在于,识别语音信号中所包含的语言信息、以及语言信息中所附带的副语言信息和/或非语言信息。
实施方式的语音识别装置具备计算部、搜索部、附加符号取得部以及输出部。所述计算部根据语音信号,计算将包括每个输入符号的声学得分的多个得分矢量排列而成的得分矢量序列,其中,所述输入符号是预先确定的符号集合的元素。所述搜索部通过搜索对所述得分矢量序列中的似然度高的所述声学得分进行追溯的所述输入符号的路径而生成输入符号串,根据所述输入符号串中所包含的所述输入符号之中的表示识别对象的语言信息的识别对象符号,生成表示所述语音信号的识别结果的输出符号。所述附加符号取得部从所述输入符号串中的与所述输出符号对应的范围中所包含的所述输入符号中,取得表示副语言信息和/或非语言信息的附加符号。所述输出部将所述输出符号与所取得的所述附加符号对应关联地进行输出。
根据上述语音识别装置,能够识别语音信号中所包含的语言信息、以及语言信息中所附带的副语言信息和/或非语言信息。
附图说明
图1是示出实施方式的语音识别装置的结构的图。
图2是示出得分计算部的结构的一个例子的图。
图3是示出路径搜索部的结构的图。
图4是示出路径搜索部的处理流程的图。
图5是示出字母的输入符号串的一个例子的图。
图6是示出从图5的输入符号串中删除连续的识别对象符号的处理的图。
图7是示出从图6的输入符号串中删除识别对象符号以外的符号的处理的图。
图8是示出生成字母的输出符号的处理的图。
图9是示出字母的输入符号串中的与输出符号对应的范围的图。
图10是示出字母的输出符号以及附加符号的一个例子的图。
图11是示出日语的输入符号串的一个例子的图。
图12是示出从图11的输入符号串中删除连续的识别对象符号的处理的图。
图13是示出从日语的输入符号串中删除识别对象符号以外的符号的处理的图。
图14是示出生成日语的输出符号的处理的图。
图15是示出日语的输入符号串中的与输出符号对应的范围的一个例子的图。
图16是示出日语的输出符号以及附加符号的一个例子的图。
图17是示出表示由语音识别装置实施的处理的伪代码(pseudo code)的一个例子的图。
图18是示出通过伪代码识别的字母的符号的一个例子的图。
图19是示出通过伪代码识别的日语的符号的一个例子的图。
图20是示出第2变形例的表示由语音识别装置实施的处理的伪代码的图。
图21是示出第4变形例的表示由语音识别装置实施的处理的伪代码的图。
图22是语音识别装置的硬件框图。
(附图标记说明)
10:语音识别装置;22:特征抽出部;24:声学模型存储部;26:得分计算部;28:搜索模型存储部;30:路径搜索部;42:输入层;44:中间层;46:输出层;52:搜索部;54:输入符号取得部;56:输出符号取得部;58:对应关系取得部;60:输入符号存储部;62:输出符号存储部;64:对应关系存储部;66:附加符号取得部;68:输出部;101:CPU;102:操作部;103:显示部;104:麦克风;105:ROM;106:RAM;107:存储部;108:通信装置;109:总线。
具体实施方式
以下,参照附图,详细说明实施方式。本实施方式的语音识别装置10识别语音信号中所包含的语言信息,输出表示进行识别得到的语言信息的输出符号。与此同时,语音识别装置10对附随语言信息而包含于语音信号的副语言信息和/或非语言信息进行识别,并与输出符号对应地输出表示识别出的副语言信息和/或非语言信息的附加符号。
(定义)
首先,说明在实施方式中使用的用词。
声学信息是指语音信号中所包含的信息。在声学信息中包括语言信息、副语言信息、非语言信息以及无声信息。
语言信息是声学信息之一,是通过由说话的人说出语言而附加到语音信号的、能够利用文字表示的信息。例如,语言信息是音素、音节、以短音节为单位汇总的音素、词根(subword)、文字、单词等。在日语的情况下,语言信息可以是假名。另外,在英语的情况下,语言信息既可以是音标,也可以是字母。如日语的促音那样,可成为语言信息的无声包含于此。
副语言信息是声学信息之一,是通过由说话的人发声而附加到语音信号的、无法从语言信息识别的信息。副语言信息例如是用于对表示说话的人正在思考中的情况的填充语、以及利用声调的方向来表示的语言信息是否是向对方的询问等进行识别的信息。例如,在“是吗(日语:そうですか)”这样的语言信息的后半的声调变高的情况下,该语言信息表示是询问。另外,在“是吗”这样的语言信息的后半的声调变低的情况下,该语言信息表示肯定。因此,表示询问的副语言信息例如表示语言信息的后半的声调变高。此外,副语言信息不限于填充语以及询问,也可以还表示其它信息。
非语言信息是声学信息之一,是语音信号中所包含的表示说话的人的特征的信息。例如,非语言信息是说话的人的性别、说话的人的年龄、说话的人的身体的特征、说话的人的个性、说话的人的感情、重言(stammering)、词片段(word fragment)、以及改述(rephrasing)等信息。此外,非语言信息只要是表示说话的人的特征的信息,则例如也可以是说话的人无法控制那样的其它信息以及表示说话的人的状态等的信息。
无声信息是声学信息之一,是表示在语音信号中不包括语言信息、副语言信息、非语言信息中的任意信息的状态(例如无声以及噪音)的信息。
输入符号是表示声学信息的符号。符号集合是以输入符号为元素的集合。符号集合被预先定义。符号集合包括至少一个识别对象符号、至少一个附加符号、以及对象外符号而作为输入符号。
识别对象符号是输入符号之一,是表示识别对象的语言信息的符号。符号集合也可以包括与在语音信号中可包含的所有语言信息对应的文字(例如所有音标)而作为识别对象符号。另外,在语音识别装置10仅识别特定的单词的情况(例如仅识别“你好(日文:こんにちは;表示)”的情况)下,也可以包括与用于识别特定的单词而所需的语言信息对应的文字而作为识别对象符号。在识别无声信息的情况下,作为识别对象符号之一,也可以使表示无声信息的无声符号包含于识别对象符号。
附加符号是输入符号之一,是表示副语言信息和/或非语言信息的符号。符号集合包括与在语音信号中可包含的所有副语言信息以及非语言信息对应的文字而作为附加符号。另外,在语音识别装置10仅识别特定的副语言信息或者非语言信息的情况(例如仅识别填充语的情况)下,也可以包括与特定的副语言信息或者非语言信息对应的文字而作为附加符号。
对象外符号是输入符号之一,是表示识别对象符号以及附加符号表示的声学信息之中的哪个声学信息包含于语音信号还未定的符号。即,对象外符号是表示语音识别装置10还不能识别识别对象符号或者附加符号的符号。更具体而言,对象外符号是表示保留如下处理的符号:后述的得分计算部26决定使哪个识别对象符号或者附加符号的得分变得良好。对象外符号的声学得分在保留处理时变得良好,在未保留处理时变差。因此,在输入了后述的1帧量的语音时所计算的对象外符号的得分良好时,该语音有时对应于无声信息、识别对象的语言信息、识别对象外的语言信息、识别对象的副语言信息、识别对象外的副语言信息、识别对象的非语言信息、识别对象外的非语言信息之中的一部分或者全部。
输入符号串是识别语音信号而得到的似然度高的输入符号的序列。语音识别装置10也可以针对一个语音信号,生成一个输入符号串。另外,语音识别装置10也可以针对一个语音信号,生成M个(M是2以上的整数)输入符号串。
输出符号表示语音信号的识别结果。输出符号也可以是单词、文字、词根串等。根据输入符号串中所包含的识别对象符号,生成输出符号。语音识别装置10也可以根据一个输入符号串,生成按照时间序列排列的多个输出符号。还有将按照时间序列排列的多个输出符号称为输出符号串的情况。
(实施方式)
图1是示出实施方式的语音识别装置10的结构的图。语音识别装置10具备特征抽出部22、声学模型存储部24、得分计算部26、搜索模型存储部28以及路径搜索部30。
特征抽出部22取得识别对象的语音信号。特征抽出部22取得例如由集音装置检测出的语音信号。
特征抽出部22针对每个帧解析语音信号,针对每个帧计算特征矢量。特征矢量包括表示语音的特征的多个种类的特征量。帧是用于计算一个特征矢量的语音信号的区间。帧被设定为使中心时刻每隔预定间隔偏移。另外,多个帧例如是相互相同的时间长。各个帧也可以与其它帧重叠一部分区间。
声学模型存储部24存储声学模型。声学模型是为了对语音信号进行模式识别而由得分计算部26使用的数据。在由语音识别装置10识别语音信号之前,通过学习装置适当地训练声学模型。声学模型存储部24例如也可以通过网络上的服务器来实现。
得分计算部26根据由特征抽出部22针对每个帧计算出的特征矢量,使用存储在声学模型存储部24中的声学模型,计算排列有多个得分矢量的得分矢量序列。各个得分矢量包括作为预先确定的符号集合的元素的每个输入符号的声学得分。
得分矢量中所包含的各个声学得分与某个输入符号对应。声学得分表示由对应的输入符号表示的声学信息包含于语音信号的似然度(likelihood)。此外,语音信号中所包含的声学信息、与输入符号表示的声学信息也可以未进行帧同步(时间同步)。即,输入符号表示的声学信息也可以从语音信号中所包含的声学信息进行延迟。例如,也可以使由得分计算部26根据第15个帧的特征矢量的输入而计算的得分矢量中所包含的声学得分之中的最良好的声学得分所对应的输入符号表示的声学信息包含于第1~10个帧。
得分矢量被标准化为在合成了所包含的所有声学得分的情况下成为特定值(例如1)。例如,在声学得分是概率或者似然度的情况下,得分矢量被标准化为在将所包含的所有声学得分相加时成为特定值。另外,在声学得分是对数概率或者对数似然度的情况下,得分矢量被标准化为在对所包含的各个声学得分进行指数运算之后相加所有声学得分时成为特定值。
例如,声学得分也可以是利用对应的输入符号来表示的声学信息包含于语音信号的概率、似然度、对数似然度或者对数概率。关于声学得分,既可以是值越大则表示越良好(即,似然度高),也可以是值越小则表示越良好。例如,关于声学得分,在是概率、似然度、对数概率或者对数似然度的情况下,值越大则表示越良好。另外,例如关于声学得分,在是将符号进行了反转的对数概率或者将符号进行了反转的对数似然度的情况下,值越小则表示越良好。另外,关于声学得分,在将语音信号(特征矢量)和声学模型中的某种距离设为声学得分的情况下,值越小则表示越良好。
得分矢量序列是排列了多个得分矢量的信息。得分计算部26将计算出的得分矢量序列提供给路径搜索部30。此外,特征抽出部22以及得分计算部26对应于根据语音信号计算得分矢量序列的计算部。
搜索模型存储部28存储搜索模型。搜索模型是为了根据得分矢量序列生成输入符号串以及输出符号串而由路径搜索部30使用的数据。在由语音识别装置10识别语音信号之前,通过学习装置适当地训练搜索模型。搜索模型存储部28例如也可以通过网络上的服务器来实现。
路径搜索部30通过搜索对由得分计算部26计算出的得分矢量序列中的似然度高的声学得分进行追溯的输入符号的路径,生成输入符号串。而且,路径搜索部30根据输入符号串中所包含的输入符号中的表示识别对象的语言信息的识别对象符号,生成表示语音信号的识别结果的输出符号。路径搜索部30也可以使用存储在搜索模型存储部28中的搜索模型来生成输入符号串以及输出符号。输入符号的路径是针对每个得分矢量选择出的输入符号的序列。此外,在将符号集合的元素的数量设为x、将得分矢量序列的长度设为y时,可设为输入符号的路径的组合的数量是xy个。路径搜索部30既可以将输入符号的路径直接存储为输入符号的序列,也可以通过参照搜索模型而间接地存储。
而且,路径搜索部30从输入符号串中的与输出符号对应的范围中所包含的输入符号中,取得表示副语言信息和/或非语言信息的附加符号。然后,路径搜索部30将输出符号与所取得的附加符号对应关联地进行输出。
图2是示出得分计算部26的结构的一个例子的图。得分计算部26例如也可以是如图2所示的应用了连接时间序列分类法(CTC,connectionist temporal classificationmethod)的递归型神经网络(RNN,recurrent neural network)。
例如,得分计算部26具有输入层42、至少一个中间层44、以及输出层46。输入层42、中间层44以及输出层46各自执行至少一个信号的取得处理、针对所取得的信号的运算处理、以及至少一个信号的输出处理。
输入层42、至少一个中间层44、以及输出层46被串联地连接。输入层42接受特征矢量,执行运算处理。然后,输入层42将作为运算结果得到的至少一个信号输出到次级的中间层44。另外,各个中间层44对从前级接受的至少一个信号执行运算处理。然后,各个中间层44将作为运算结果得到的至少一个信号输出到次级的中间层44或者输出层46。而且,各个中间层44也可以具有反馈向自身的信号的反馈路径。
输出层46对从前级的中间层44接受的信号执行运算处理。然后,输出层46输出得分矢量作为运算结果。输出层46输出与输入符号的数量相应量的信号。在输出层46中,所输出的信号与输入符号分别对应关联。例如,输出层46通过Softmax(柔性最大值)函数来执行运算。
另外,从存储在声学模型存储部24中的声学模型,提供各个层在运算处理中使用的参数。根据特征矢量,声学模型预先通过学习装置被训练成使得输出预先确定的符号集合中所包含的各个输入符号的声学得分。即,声学模型通过学习装置被训练成使得输出表示识别对象的语言信息的至少一个识别对象符号、表示副语言信息和/或非语言信息的至少一个附加符号、以及表示识别对象外的声学得分的对象外符号各自的声学得分。
由此,得分计算部26能够同时输出关于符号集合中所包含的各个输入符号的声学得分。即,得分计算部26能够同时输出关于识别对象符号、附加符号以及对象外符号各自的声学得分。
此外,得分计算部26也可以是代替RNN而将RNN扩展而得到的被称为长短期存储(Long Shor-Term Memory)的网络。另外,输出层46也可以使用支持向量机来代替Softmax函数(例如非专利文献4)。
图3是示出路径搜索部30的结构的图。路径搜索部30具有搜索部52、输入符号取得部54、输出符号取得部56、对应关系取得部58、输入符号存储部60、输出符号存储部62、对应关系存储部64、附加符号取得部66、以及输出部68。
搜索部52通过搜索对由得分计算部26计算出的得分矢量序列中的似然度高的声学得分进行追溯的输入符号的路径,生成输入符号串。而且,搜索部52根据输入符号串中所包含的输入符号中的表示识别对象的语言信息的识别对象符号,生成表示语音信号的识别结果的输出符号。搜索部52也可以使用存储在搜索模型存储部28中的搜索模型来生成输入符号串。另外,搜索部52也可以使用搜索模型来生成输出符号。
另外,搜索部52也可以在生成输入符号串之后,根据输入符号串生成输出符号。另外,搜索部52也可以一并生成输入符号串以及输出符号。另外,搜索部52既可以生成一个输入符号串,也可以生成M个输入符号串。另外,搜索部52既可以根据各个输入符号串生成一个输出符号,也可以生成按照时间序列排列的多个输出符号。
搜索模型对搜索部52提供为了搜索而使用的数据。例如,搜索部52使用的搜索模型是加权的有限状态变换器(WFST)。在该情况下,搜索部52通过维特比算法(Viterbialgorithm),搜索声学得分的累积值变得最良好那样的输入符号的路径。另外,搜索部52所使用的搜索模型也可以是RNN或者从RNN派生的网络。通过使用这样的搜索模型,搜索部52能够对作为输入符号的路径可搜索的路径设置限制、或者在搜索时指定优先的路径、或者指定即使声学得分差也优先地生成的输入符号串。而且,搜索模型包括表示输入符号串与输出符号的对应关系的信息。在搜索模型是WFST的情况下,搜索部52也可以通过WFST上的路径、即WFST的状态和迁移的组合,存储输入符号的路径。
输入符号取得部54取得搜索部52通过搜索生成的输入符号串。输入符号取得部54在搜索部52生成了M个输入符号串的情况下,取得M个输入符号串。
输出符号取得部56取得搜索部52通过搜索得到的输出符号。输出符号取得部56在搜索部52根据一个输入符号串生成了按照时间序列排列的多个输出符号的情况下,取得多个输出符号。另外,输出符号取得部56在搜索部52通过搜索生成了M个输入符号串的情况下,针对各个输入符号串取得输出符号。
对应关系取得部58根据搜索部52通过搜索得到的输入符号串以及输出符号,取得表示输入符号串中的与输出符号对应的范围的对应关系信息。对应关系取得部58在搜索部52根据一个输入符号串生成了按照时间序列排列的多个输出符号的情况下,针对各个输出符号,取得对应关系信息。另外,输出符号取得部56在搜索部52生成了M个输入符号串的情况下,针对各个输入符号串,取得对应关系信息。
输入符号存储部60存储输入符号取得部54所取得的输入符号串。输出符号存储部62存储输出符号取得部56所取得的输出符号。对应关系存储部64存储对应关系取得部58所取得的对应关系信息。
附加符号取得部66读出存储在输出符号存储部62中的输出符号以及存储在对应关系存储部64中的对应关系信息。然后,附加符号取得部66从存储在输入符号存储部60中的输入符号串中的与输出符号对应的范围中所包含的输入符号中,取得表示副语言信息和/或非语言信息的附加符号。另外,附加符号取得部66在根据一个输入符号串生成了按照时间序列排列的多个输出符号的情况下,针对各个输出符号,取得附加符号。另外,附加符号取得部66在搜索部52生成了M个输入符号串的情况下,针对各个输入符号串中所包含的输出符号,取得附加符号。
输出部68将输出符号与所取得的附加符号对应关联地进行输出。输出部68在搜索部52生成了按照时间序列排列的多个输出符号的情况下,以可识别的方式输出多个输出符号的时间序列,并且与各个输出符号对应关联地输出对应的附加符号。另外,在搜索部52生成了M个输入符号串的情况下,针对各个输入符号串中所包含的输出符号,将输出符号与所取得的附加符号对应关联地进行输出。
图4是示出路径搜索部30的处理流程的图。路径搜索部30在生成最良好的一个输入符号串的情况下,按照如图4所示的步骤执行处理。
首先,在S11中,路径搜索部30取得得分矢量序列。接下来,在S12中,路径搜索部30根据得分矢量序列,搜索似然度高的输入符号的路径,生成一个输入符号串。例如,路径搜索部30也可以通过针对每个帧选择并连接声学得分最良好的输入符号,生成输入符号串。另外,例如路径搜索部30也可以使用WFST等搜索模型,通过维特比算法等来搜索最良好的路径,生成输入符号串。
接下来,在S13中,路径搜索部30在输入符号串中检测多个识别对象符号连续的部分,将连续的多个识别对象符号中的某一个留下,将其它删除。由此,路径搜索部30能够避免重复地识别同一语言信息。
例如,路径搜索部30在输入符号串中,将连续的多个识别对象符号中的开头的一个留下,将第2个以后删除。取而代之,路径搜索部30也可以在输入符号串中,将连续的多个识别对象符号中的最后一个留下,将其它删除。
接下来,在S14中,路径搜索部30针对进行S13的处理之后的输入符号串,使识别对象符号残留,删除识别对象符号以外的输入符号。即,路径搜索部30从输入符号串中删除附加符号以及对象外符号。
接下来,在S15中,路径搜索部30根据进行S13以及S14的处理之后的输入符号串,生成输出符号。即,路径搜索部30根据仅包括识别对象符号的输入符号串,生成输出符号。
例如,路径搜索部30参照作为输入符号串和输出符号的对应表的搜索模型,从输入符号串的开头按顺序依次抽出与输入符号串的一部分一致的输出符号。例如,作为输入符号串和输出符号的对应表的搜索模型也可以是将音标的串与单词对应关联的发音词典。另外,路径搜索部30也可以根据一个输入符号串,按照时间序列生成多个输出符号。
此外,路径搜索部30也可以分别独立地执行S12、S13、S14以及S15的处理。另外,路径搜索部30在搜索模型是WFST的情况下,也可以一并处理S12、S13、S14以及S15的处理。在该情况下,路径搜索部30以能够在之后参照输入符号串以及输出符号的方式存储搜索结果。
接下来,在S16中,路径搜索部30针对各个输出符号,生成对应关系信息。对应关系信息表示输入符号串中的与其输出符号对应的范围。
在此,输入符号串中的与输出符号对应的范围是包括成为输出符号的生成源的全部识别对象符号的连续的范围。而且,输入符号串中的与输出符号对应的范围也可以是边界和与前后的其它输出符号对应的范围相邻的范围。
此外,路径搜索部30解析输出符号和输入符号串的对应关系,检测范围的边界。取而代之,路径搜索部30也可以根据搜索模型或者其它信息,检测边界。
接下来,在S17中,路径搜索部30针对各个输出符号,从输入符号串中的对应关系信息所示出的范围中所包含的输入符号中,取得附加符号。接下来,在S18中,路径搜索部30将输出符号和所取得的附加符号对应关联地进行输出。
此外,路径搜索部30也可以生成M个输入符号串。在该情况下,路径搜索部30针对各个输入符号串,执行S12~S18的处理。另外,在搜索模型是WFST的情况下,路径搜索部30能够通过一并执行S12至S15的处理,生成M个输入符号串。
图5、图6、图7、图8、图9以及图10是用于说明识别字母的情况下的路径搜索部30的处理内容的图。路径搜索部30在依照图4的处理流程来识别字母的情况下,执行如下的处理。
此外,在该情况下,声学模型通过学习装置被预先训练成使得识别符号集合中所包含的字母的输入符号。另外,识别对象符号是音素符号的情况较多,但在此声学模型被学习成使得识别字母。例如,在非专利文献3中记载有这样的学习方法。
例如,在S12中,路径搜索部30生成如图5所示的输入符号串。在此,例如预先确定的符号集合如下所述。
符号集合(输入符号的集合)={ε,a,d,g,h,o,<f>,<g>,<q>}
另外,输入符号中的识别对象符号如下所述。
识别对象符号的集合={a,d,g,h,o}
另外,输入符号中的附加符号如下所述。此外,<f>是表示作为副语言信息之一的填充语的符号。另外,<g>是表示作为非语言信息之一的词片段的符号。<q>是表示作为副语言信息之一的询问的符号。
附加符号的集合={<f>,<g>,<q>}
另外,输入符号中的对象外符号如下所述。此外,ε是表示识别对象符号以及附加符号表示的声学信息中的哪个声学信息包含于语音信号还未定的符号。
对象外符号=ε
在S13中,路径搜索部30在输入符号串中,将连续的多个识别对象符号中的开头的一个留下,将第2个以后删除。例如,在图6的例子中,第3个输入符号以及第4个输入符号都是“a”。另外,第13个输入符号以及第14个输入符号都是“g”。因此,在S13中,路径搜索部30将第3个输入符号留下,将第4个输入符号删除。另外,路径搜索部30将第13个输入符号留下,将第14个输入符号删除。
接下来,在S14中,路径搜索部30针对进行S13的处理之后的输入符号串,使识别对象符号残留,删除识别对象符号以外的输入符号。例如,如图7的例子所示,路径搜索部30从输入符号串中删除“<f>”、“<g>”、“<q>”以及“ε”,使“a”、“d”、“g”、“h”、“o”留下。
接下来,在S15中,路径搜索部30从进行S13以及S14的处理之后的输入符号串,参照作为输入符号串和输出符号的对应表的搜索模型,从输入符号串的开头按顺序依次抽出与输入符号串的一部分一致的输出符号。例如,如图8所示,路径搜索部30根据作为输入符号串的“ahggood”,生成三个输出符号“h1=ah”、“h2=g”以及“h3=good”。此外,输出符号“h”的下标表示输出符号的产生顺序。
接下来,在S16中,路径搜索部30针对各个输出符号,生成对应关系信息。在此,输入符号串中的与输出符号对应的范围是包括成为输出符号的生成源的全部识别对象符号的连续的范围。而且,输入符号串中的与输出符号对应的范围也可以是边界和与前后的其它输出符号对应的范围相邻的范围。
例如,在图9所示的例子中,关于第1个输出符号“h1=ah”,输入符号串的对应的范围是第1个输入符号至第12个输入符号。另外,关于第2个输出符号“h2=g”,输入符号串的对应的范围是第13个输入符号至第18个输入符号。另外,关于第3个输出符号“h3=good”,输入符号串的对应的范围是第19个输入符号至第32个输入符号。
在图9的例子中,关于范围的开头侧的边界,在第1个输出符号的情况下是输入符号串的开头,在第2个以后的输出符号的情况下是紧接在与该输出符号对应的开头的识别对象符号之前。另外,在图9的例子中,关于范围的末尾侧的边界,在最后的输出符号的情况下是输入符号串的最后,在最后以外的输出符号的情况下与接下来的输出符号的开头侧的边界相同。由此,路径搜索部30能够将输入符号串中的与输出符号对应的范围设为边界和与前后的其它输出符号对应的范围相邻的范围。
此外,路径搜索部30在S13中将连续的多个识别对象符号中的开头的一个留下、并将第2个以后删除的情况下,如该图9所示确定边界。但是,在S13中将连续的多个识别对象符号中的最后一个留下、并将其它删除的情况下,关于范围的末尾侧的边界,在最后的输出符号的情况下是输入符号串的最后,在最后以外的输出符号的情况下是紧接在与该输出符号对应的最后的识别对象符号之后。另外,关于范围的开头侧的边界,在第1个输出符号的情况下是输入符号串的开头,在第2个以后的输出符号的情况下与紧接在之前的输出符号的末尾侧的边界相同。
接下来,在S17中,路径搜索部30针对各个输出符号,从输入符号串中的对应关系信息所示出的范围中所包含的输入符号中,取得附加符号。
例如,在图10的例子的情况下,在第1个输出符号“h1=ah”中的输入符号串的对应的范围(第1个至第12个)中包括“<f>”。因此,路径搜索部30与第1个输出符号“h1=ah”对应地取得“<f>”。另外,例如在第2个输出符号“h2=g”中的输入符号串的对应的范围(第13个至第18个)中包括“<g>”。因此,路径搜索部30与第2个输出符号“h2=g”对应地取得“<g>”。例如,在第3个输出符号“h3=good”中的输入符号串的对应的范围(第19个至第32个)中包括“<q>”。因此,路径搜索部30与第2个输出符号“h3=good”对应地取得“<q>”。
接下来,在S18中,路径搜索部30将输出符号和所取得的附加符号对应关联地进行输出。例如,在图10的例子的情况下,路径搜索部30与第1个输出符号“h1=ah”对应地输出包括所取得的附加符号的附加信息“p1={<f>}”。另外,路径搜索部30与第2个输出符号“h2=g”对应地输出包括所取得的附加符号的附加信息“p2={<g>}”。另外,路径搜索部30与第3个输出符号“h3=good”对应地输出包括所取得的附加符号的附加信息“p3={<q>}”。
图11、图12、图13、图14、图15以及图16是用于说明识别日语的情况下的路径搜索部30的处理内容的图。路径搜索部30在依照图4的处理流程来识别日语的情况下,执行如下的处理。此外,在该情况下,声学模型通过学习装置被预先训练成使得识别符号集合中所包含的日语的输入符号。
例如,在S12中,路径搜索部30生成如图11所示的输入符号串。在此,例如预先确定的符号集合如下所述。
符号集合(输入符号的集合)={ε,あ,い,き,す,て,わ,ん,<f>,<g>,<q>}
另外,输入符号中的识别对象符号如下所述。
识别对象符号的集合={あ,い,き,す,て,わ,ん}
另外,输入符号中的附加符号如下所述。
附加符号的集合={<f>,<g>,<q>}
另外,输入符号中的对象外符号如下所述。
对象外符号=ε
接下来,在S13中,路径搜索部30在输入符号串中,将连续的多个识别对象符号中的开头的一个留下,将第2个以后删除。例如,在图12的例子中,第3个输入符号以及第4个输入符号都是同一识别对象符号。另外,第11个输入符号以及第12个输入符号都是同一识别对象符号。另外,第26个输入符号以及第27个输入符号都是同一识别对象符号。因此,在S13中,路径搜索部30将它们中的开头的输入文字留下,将其它删除。
接下来,在S14中,路径搜索部30针对进行S13的处理之后的输入符号串,使识别对象符号残留,删除识别对象符号以外的输入符号。例如,如图13的例子所示,路径搜索部30从输入符号串中删除“<f>”、“<g>”、“<q>”以及“ε”。
接下来,在S15中,路径搜索部30从进行S13以及S14的处理之后的输入符号串,参照作为输入符号串和输出符号的对应表的搜索模型,从输入符号串的开头按顺序依次抽出与输入符号串的一部分一致的输出符号。例如,如图14所示,路径搜索部30根据输入符号串,生成6个输出符号。
接下来,在S16中,路径搜索部30针对各个输出符号,生成对应关系信息。
例如,在图15所示的例子中,关于第1个输出符号“h1”,输入符号串的对应的范围是第1个输入符号至第7个输入符号。另外,关于第2个输出符号“h2”,输入符号串的对应的范围是第8个输入符号至第10个输入符号。另外,关于第3个输出符号“h3”,输入符号串的对应的范围是第11个输入符号至第22个输入符号。另外,关于第4个输出符号“h4”,输入符号串的对应的范围是第23个输入符号至第30个输入符号。另外,关于第5个输出符号“h5”,输入符号串的对应的范围是第31个输入符号至第34个输入符号。另外,关于第6个输出符号“h6”,输入符号串的对应的范围是第35个输入符号至第44个输入符号。
接下来,在S17中,路径搜索部30针对各个输出符号,从输入符号串中的对应关系信息所示出的范围中所包含的输入符号中,取得附加符号。
例如,在图16的例子的情况下,在第1个输出符号“h1”中的输入符号串的对应的范围(第1个至第7个)中不包括附加符号。另外,例如在第2个输出符号“h2”中的输入符号串的对应的范围(第8个至第10个)中不包括附加符号。例如,在第3个输出符号“h3”中的输入符号串的对应的范围(第11个至第22个)中包括“<f>”。另外,例如在第4个输出符号“h4”中的输入符号串的对应的范围(第23个至第30个)中不包括附加符号。例如,在第5个输出符号“h5”中的输入符号串的对应的范围(第31个至第34个)中包括“<g>”。例如,在第6个输出符号“h5”中的输入符号串的对应的范围(第35个至第44个)中包括“<q>”。
接下来,在S18中,路径搜索部30将输出符号和所取得的附加符号对应关联地进行输出。
例如,在图16的例子的情况下,路径搜索部30与第1个输出符号“h1”对应地输出不包括任何附加符号的附加信息“p1={}”。另外,路径搜索部30与第2个输出符号“h2”对应地输出不包括任何附加符号的附加信息“p2={}”。另外,路径搜索部30与第3个输出符号“h3”对应地输出包括所取得的附加符号的附加信息“p3={<f>}”。另外,路径搜索部30与第4个输出符号“h4”对应地输出不包括任何附加符号的附加信息“p4={}”。另外,路径搜索部30与第5个输出符号“h5”对应地输出包括所取得的附加符号的附加信息“p5={<g>}”。另外,路径搜索部30与第6个输出符号“h6”对应地输出包括所取得的附加符号的附加信息“p6={<q>}”。
图17是示出表示由语音识别装置10实施的识别处理的伪代码的一个例子的图。作为一个例子,语音识别装置10从第1行起依次执行图17所示的伪代码。
在第1行中,语音识别装置10向ξ代入ξinitial。ξ储存搜索中的多个输入符号串以及对应的输出符号。例如,ξ也可以储存通过维特比算法搜索出的WFST的路径。ξinitial表示ξ的初始状态。语音识别装置10通过执行第1行,能够将ξ初始化。
第2行表示向i依次代入1至N的整数,每当向i代入整数时,重复第3行至第5行的处理。i是变量。N是语音信号的帧的总数。语音识别装置10针对语音信号的第1个帧至第N个帧的各个帧,执行第3行至第5行的处理。
在第3行中,语音识别装置10向v代入extract_features(fi)的处理结果。v是储存特征矢量的变量。fi是第i个帧的语音信号。extract_features(fi)是根据第i个帧的语音信号计算特征矢量的函数。语音识别装置10通过执行第3行,能够计算第i个帧的特征矢量。
在第4行中,语音识别装置10向s代入calc_scores(v)。s是储存得分矢量的变量。calc_scores(v)是根据特征矢量计算得分矢量的函数。语音识别装置10通过执行第4行,能够计算第i个帧的得分矢量。
在第5行中,语音识别装置10向ξ代入search(ξ,s)的处理结果。search(ξ,s)是从追加有新的得分矢量的得分矢量序列取得输入符号串以及输出符号的搜索结果的函数。语音识别装置10通过执行第5行,能够生成对第1个至第i个帧进行了搜索的阶段中的输入符号串以及输出符号。在通过维特比算法搜索WFST的路径的情况下,语音识别装置10也可以将WFST的路径延长与一个新的得分矢量相应的量,将该路径作为处理结果储存到ξ。
然后,语音识别装置10通过直至成为i=N为止重复第3行至第5行的处理,能够生成作为对语音信号进行识别得到的结果的输入符号串以及输出符号。
在第6行中,语音识别装置10向h代入best(ξ)的处理结果。h是储存以输出符号和表示输出符号的顺序的索引的组为元素的集合的变量。best(ξ)是取得在ξ中保持的一个或者多个输出符号以及各个输出符号的顺序的函数。语音识别装置10通过执行第6行,能够取得作为语音信号的识别结果的一个或者多个输出符号以及各个输出符号的顺序。在通过维特比算法搜索WFST的路径的情况下,best(ξ)从在ξ中保持的路径,取得一个或者多个输出符号以及各个输出符号的顺序。
在第7行中,语音识别装置10向Ψ代入空集合。图中的对0加上/的符号表示空集合。Ψ是储存以表示输出符号的顺序的索引和与该输出符号对应的附加符号的集合的组为元素的集合的变量。语音识别装置10通过执行第7行,能够将Ψ设为空集合。
第8行表示向i依次代入1至|h|的整数,每当向i代入整数时,重复第9行至第14行的处理。|h|是在Ψ中保持的输出符号的个数。因此,语音识别装置10针对第1个输出符号至第|h|个输出符号的各个输出符号,执行第9行至第14行的处理。
在第9行中,语音识别装置10向A代入空集合。A是附加符号的集合。语音识别装置10通过执行第9行,能够将A设为空集合。
在第10行中,语音识别装置10向π代入get_symbol_sequence(hi)。π是输入符号的集合。get_symbol_sequence(hi)是取得在ξ中保持的输入符号串中的与第i个输出符号对应的范围中所包含的一个或者多个输入符号的函数。语音识别装置10通过执行第10行,能够取得输入符号串中的与第i个输出符号对应的范围中所包含的一个或者多个输入符号。在通过维特比算法搜索WFST的路径的情况下,get_symbol_sequence(hi)取得在ξ中保持的路径中的与第i个输出符号对应的部分中所包含的一个或者多个输入符号。
第11行表示针对作为在R\L中包含的元素的每个σ,执行第12行至第13行的处理。R是包括所有识别对象符号和所有附加符号的集合。L是包括所有识别对象符号的集合。R\L是从R除去L后的集合。即,R\L是包括所有附加符号的集合。因此,语音识别装置10针对所有附加符号的每一个,重复执行第12行至第13行的处理。
在第12行中,语音识别装置10判断在π中是否包括σ。语音识别装置10在判断为在π中包括σ的情况下,执行第13行。
在第13行中,语音识别装置10向A代入σ。因此,语音识别装置10通过执行第12行以及第13行,能够取得输入符号串中的与第i个输出符号对应的范围中所包含的附加符号。
在第14行中,语音识别装置10将作为表示输出符号的顺序的索引的i与作为附加符号的集合的A的组追加到Ψ。由此,语音识别装置10能够将与第i个输出符号对应的附加符号追加到Ψ。
在第15行中,语音识别装置10将h以及Ψ返给上位的程序。由此,语音识别装置10能够输出多个输出符号和与各个输出符号对应的附加符号。
图18是示出通过图17的伪代码来识别的字母的符号的一个例子的图。图18的A表示作为符号集合(输入符号的集合)的Σ、作为识别对象符号的集合的L、作为识别对象符号和附加符号的集合的R、作为附加符号的集合的R\L的一个例子。图18的B表示作为输入符号串的πh的一个例子。图18的C表示输出符号h1、h2、h3的一个例子。
图18所示的输入符号串“πh”中的与第1个输出符号“h1=ah”对应的范围例如如下所述。
εεaa<f>εεh<f>εε
在该情况下,在关于h1执行了伪代码的第10行时,π=“εεaa<f>εεh<f>εε”。接下来,在关于h1执行了伪代码的第11行至第13行时,A={<f>}。接下来,在执行了第14行时,Ψ={1,{<f>}}。由此,使用由语音识别装置10识别的结果的应用能够识别第1个输出符号是填充语。
另外,输入符号串“πh”中的与第2个输出符号“h2=g”对应的范围例如如下所述。
ggεε<g>ε
在该情况下,在关于h2执行了伪代码的第10行时,π=“ggεε<g>ε”。接下来,在关于h2执行了伪代码的第11行至第13行时,A={<g>}。接下来,在执行了第14行时,Ψ={2,{<g>}}。由此,使用由语音识别装置10识别的结果的应用能够识别第2个输出符号是词片段。
另外,假设与第2个输出符号“h2=g”对应的输入符号串例如如下所述。
ggεε<g>ε<f>ε
在该情况下,Ψ={2,{<f>,<g>}},包括多个附加符号。由此,使用由语音识别装置10识别的结果的应用能够识别第2个输出符号是填充语并且是词片段。
另外,输入符号串“πh”中的与第3个输出符号“h3=good”对应的范围例如如下所述。
gεoεεεoεdε<q>εεε
在该情况下,在关于h3执行了伪代码的第10行时,π=“gεoεεεoεdε<q>εεε”。接下来,在关于h3执行了伪代码的第11行至第13行时,A={<q>}。接下来,在执行了第14行时,Ψ={3,{<q>}}。由此,使用由语音识别装置10识别的结果的应用能够识别作为第3个输出符号的输出符号是询问。
图19是示出通过图17的伪代码来识别的日语的符号的一个例子的图。图19的A示出作为符号集合(输入符号的集合)的Σ、作为识别对象符号的集合的L、作为识别对象符号和附加符号的集合的R、作为附加符号的集合的R\L的一个例子。图19的B示出作为输入符号串的πh的一个例子。图19的C示出输出符号h1、h2、h3、h4、h5、h6的一个例子。
输入符号串“πh”中的与第1个输出符号“h1”对应的范围例如如下所述。
εεああεすε
在该情况下,在关于h1执行了伪代码的第10行时,如下所述。
π=εεああεすε
接下来,在关于h1执行了伪代码的第11行至第13行时,A={}。接下来,在执行了第14行时,Ψ={1,{}}。由此,使用由语音识别装置10识别的结果的应用能够识别第1个输出符号不是副语言信息以及非语言信息。在此,{}表示空集合。即,在该情况下,{}意味着不包含任何附加符号。
图19所示的输入符号串“πh”中的与第2个输出符号“h2”对应的范围例如如下所述。
わεε
在该情况下,在关于h2执行了伪代码的第10行时,如下所述。
π=わεε
接下来,在关于h2执行了伪代码的第11行至第13行时,A={}。接下来,在执行第14行时,Ψ={2,{}}。由此,使用由语音识别装置10识别的结果的应用能够识别第2个输出符号不是副语言信息以及非语言信息。
输入符号串“πh”中的与第3个输出符号“h3”对应的范围例如如下所述。
ああεε<f>εあεεε<f>ε
在该情况下,在关于h3执行了伪代码的第10行时,如下所述。
π=ああεε<f>εあεεε<f>ε
接下来,在关于h3执行了伪代码的第11行至第13行时,A={<f>}。接下来,在执行了第14行时,Ψ={3,{<f>}}。由此,使用由语音识别装置10识别的结果的应用能够识别第3个输出符号是填充语。
输入符号串“πh”中的与第4个输出符号“h4”对应的范围例如如下所述。
いεεいいεεε
在该情况下,在关于h4执行了伪代码的第10行时,如下所述。
π=いεεいいεεε
接下来,在关于h4执行了伪代码的第11行至第13行时,A={}。接下来,在执行第14行时,Ψ={4,{}}。由此,使用由语音识别装置10识别的结果的应用能够识别第4个输出符号不是副语言信息以及非语言信息。
输入符号串“πh”中的与第5个输出符号“h5”对应的范围例如如下所述。
て<g>んε
在该情况下,在关于h5执行了伪代码的第10行时,如下所述。
π=て<g>んε
接下来,在关于h5执行了伪代码的第11行至第13行时,A={<g>}。接下来,在执行了第14行时,Ψ={5,{<g>}}。由此,使用由语音识别装置10识别的结果的应用能够识别第5个输出符号是词片段。
输入符号串“πh”中的与第6个输出符号“h6”对应的范围例如如下所述。
てεんεεきεε<q>ε
在该情况下,在关于h6执行了伪代码的第10行时,如下所述。
π=てεんεεきεε<q>ε
接下来,在关于h6执行了伪代码的第11行至第13行时,A={<q>}。接下来,在执行了第14行时,Ψ={6,{<q>}}。由此,使用由语音识别装置10识别的结果的应用能够识别第6个输出符号是询问。
如以上那样,根据本实施方式的语音识别装置10,能够识别语音信号中所包含的语言信息、以及语言信息中所附带的副语言信息和/或非语言信息。另外,根据语音识别装置10,能够将与识别出的语言信息对应的输出符号、和与识别出的语言信息中所附带的副语言信息和/或非语言信息对应的附加符号对应关联地进行输出。
(第1变形例)
在第1变形例中,输出部68也可以将输出符号、和输入符号串中的与输出符号对应的范围中所包含的所有输入符号对应关联地进行输出。在该情况下,使用由语音识别装置10识别的结果的应用解析在接受的一个或者多个输入符号中是否包含附加符号。
例如,将图16的伪代码中的第14行的(i,A)置换为(i,π)。由此,语音识别装置10能够将输出符号、和输入符号串中的与输出符号对应的范围中所包含的所有输入符号对应关联地进行输出。另外,在该情况下,使用由语音识别装置10识别的结果的应用能够执行与图16的伪代码中的第11行至第13行对应的处理。由此,应用能够取得与各个输出符号对应的附加符号。
(第2变形例)
图20是示出第2变形例的表示由语音识别装置10实施的识别处理的伪代码的一个例子的图。在第2变形例中,附加符号取得部66根据输入符号串中的与输出符号对应的范围中所包含的附加符号的个数,计算所取得的附加符号的可靠度。然后,输出部68将计算出的可靠度与对应的附加符号一起输出。
例如,附加符号取得部66计算输入符号串中的与输出符号对应的范围中所包含的附加符号的个数相对输入符号串中的与输出符号对应的范围中所包含的识别对象符号的个数的比值而作为可靠度。由此,使用由语音识别装置10识别的结果的应用能够根据可靠度来使用副语言信息或者非语言信息。
第2变形例的语音识别装置10例如从第1行起依次执行图20所示的伪代码。图20所示的伪代码是将图17所示的伪代码的一部分进行了变更的代码。具体而言,图17所示的伪代码的第12行以及第13行被置换为图20所示的伪代码的第12行至第19行。另外,图17所示的伪代码的第14行以及第15行被置换为图20所示的伪代码的第20行以及第21行。以下,以不同点为中心进行说明。
第11行表示针对作为R\L中所包含的元素的每个σ执行第12行至第20行的处理。因此,语音识别装置10针对所有附加符号的每一个,重复执行第12行至第20行的处理。
在第12行中,语音识别装置10向c代入0,向d代入0。c以及d是变量。
在第13行中表示向j依次代入1至|π|的整数,每当向j代入整数时重复第14行至第17行的处理。|π|是输入符号串中的与第i个输出符号对应的范围中所包含的输入符号的个数。因此,语音识别装置10关于输入符号串中的与第i个输出符号对应的范围中所包含的第1个输入符号至第|π|个输入符号的各个输入符号,执行第14行至第17行的处理。
在第14行中,语音识别装置10判定πj和σ是否相同。πj是输入符号串中的与第i个输出符号对应的范围中的第j个输入符号。语音识别装置10在πj和σ相同的情况下执行第15行,在不同的情况下跳过第15行。
在第15行中,语音识别装置10对c相加1。
在第16行中,语音识别装置10判断πj是否包含于L。L是包括所有识别对象符号的集合。即,语音识别装置10判断πj是哪个识别对象符号。语音识别装置10在πj包含于L的情况下执行第17行,在不包含的情况下跳过第17行。
在第17行中,语音识别装置10对d相加1。
在第18行中,语音识别装置10判断c是否大于0。在第18行中,c表示输入符号串中的与第i个输出符号对应的范围中所包含的用σ确定的附加符号的个数。因此,语音识别装置10通过执行第18行,判断在输入符号串中的与第i个输出符号对应的范围中是否包含用σ确定的附加符号。语音识别装置10在包含的情况(c大于0的情况)下执行第19行,在不包含的情况(c是0的情况)下跳过第19行。
在第19行中,语音识别装置10向A代入σ和c/d的组。c/d是相对输入符号串中的与第i个输出符号对应的范围中所包含的识别对象符号的个数的、输入符号串中的与第i个输出符号对应的范围中所包含的用σ确定的附加符号的个数。即,c/d表示作为附加符号的σ的可靠度。因此,语音识别装置10通过执行第19行,能够取得输入符号串中的与第i个输出符号对应的范围中所包含的附加符号和该附加符号的可靠度的组。
在第20行中,语音识别装置10将i和A的组追加到Ψ,其中,i是表示输出符号的顺序的索引,A是附加符号和可靠度的组的集合。由此,语音识别装置10能够将与第i个输出符号对应的附加符号和可靠度的组追加到Ψ。
在第21行中,语音识别装置10将h以及Ψ返给上位的程序。由此,语音识别装置10能够输出多个输出符号、和与各个输出符号对应的附加符号以及可靠度。
(第3变形例)
第3变形例的附加符号取得部66根据输入符号串中的与输出符号对应的范围中所包含的附加符号的位置,计算所取得的附加符号的可靠度。例如,在附加符号取得部66中,也可以是附加符号位于输入符号串中的与输出符号对应的范围的越后方,则设为越高的可靠度。相反地,在附加符号取得部66中,也可以是附加符号位于输入符号串中的与输出符号对应的范围的越前方,则设为越高的可靠度。
例如,如下那样置换图20的伪代码中的第15行。由此,在语音识别装置10中,附加符号位于输入符号串中的与输出符号对应的范围的越后方,则能够设为越高的可靠度。
c←c+j
另外,例如如下那样置换图20的伪代码中的第15行。由此,在语音识别装置10中,附加符号位于输入符号串中的与输出符号对应的范围的越前方,则能够设为越高的可靠度。
c←c+|π|-j+1
(第4变形例)
图21是示出第4变形例的表示由语音识别装置10实施的识别处理的伪代码的一个例子的图。
在第4变形例中,附加符号取得部66取得输入符号串中的与输出符号对应的范围内的预先确定的位置处所包含的附加符号。例如,附加符号取得部66取得输入符号串中的与输出符号对应的范围内的比最后的识别对象符号靠后地包含的附加符号。由此,使用由语音识别装置10识别的结果的应用能够使用从发出语言信息之后的声学信息抽出的副语言信息或者非语言信息。此外,在附加符号取得部66中,只要是预先确定的位置,就可以从输入符号串中的与输出符号对应的范围内的任意位置取得附加符号。
第4变形例的语音识别装置10例如从第1行起依次执行图21所示的伪代码。图21所示的伪代码是对图17所示的伪代码的一部分进行了变更的代码。具体而言,图17所示的伪代码的第12行以及第13行被置换为图21所示的伪代码的第12行至第16行。另外,图17所示的伪代码的第14行以及第15行被置换为图20所示的伪代码的第17行以及第18行。以下,以不同点为中心进行说明。
在第12行中表示将|π|至1的整数一边把值逐次减1一边依次地代入到j,每当向j代入整数时,重复第13行至第16行的处理。|π|是输入符号串中的与第i个输出符号对应的范围中所包含的输入符号的个数。因此,语音识别装置10关于输入符号串中的与第i个输出符号对应的范围中所包含的第|π|个输入符号至第1个输入符号的各个输入符号,从后面的输入符号起依次执行第13行至第16行的处理。
在第13行中,语音识别装置10判断πj是否包含于L。L是包括所有识别对象符号的集合。πj是输入符号串中的与第i个输出符号对应的范围中的第j个输入符号。即,语音识别装置10判断πj是哪个识别对象符号。语音识别装置10在πj包含于L的情况下执行第14行,在不包含的情况下跳过第14行。
在第14行中,语音识别装置10中断第13行至第16行的重复的处理,使处理返回到第11行。
在第15行中,语音识别装置10判断πj和σ是否相同。语音识别装置10在πj和σ相同的情况下执行第16行,在不同的情况下跳过第16行。
在第16行中,语音识别装置10向A代入σ。
在第17行中,语音识别装置10将i和A的组追加到Ψ,其中,i是表示输出符号的顺序的索引,A是附加符号的集合。由此,语音识别装置10能够将输入符号串中的与输出符号对应的范围内的比最后的识别对象符号靠后地包含的附加符号追加到Ψ。
此外,附加符号取得部66也可以取得输入符号串中的与输出符号对应的范围内的比最初的识别对象符号靠前的附加符号。在该情况下,例如如下那样置换图21的伪代码中的第12行。由此,语音识别装置10关于输入符号串中的与第i个输出符号对应的范围中所包含的第1个输入符号至第|π|个输入符号的各个输入符号,从前面的输入符号起依次执行第13行至第16行的处理。
for j from 1to|π|
另外,附加符号取得部66也可以取得输入符号串中的与输出符号对应的范围内的从中央位置至最后的期间的附加符号。在该情况下,去除图21的伪代码中的第13行和第14行,如下那样置换第12行。由此,语音识别装置10关于输入符号串中的与第i个输出符号对应的范围中所包含的中央位置至第|π|个输入符号的各个输入符号,依次执行第15行至第16行的处理。
for j ceil(|π|/2)to|π|
此外,ceil(|π|/2)是使|π|/2的小数点以下进位的函数。此外,在附加符号取得部66中,只要是能够通过代码来确定的位置,就可以从输入符号串中的与输出符号对应的范围内的任意位置取得附加符号。
图22是语音识别装置10的硬件框图。作为一个例子,语音识别装置10通过与一般的计算机(信息处理装置)同样的硬件结构来实现。语音识别装置10具备CPU(CentralProcessing Unit,中央处理单元)101、操作部102、显示部103、麦克风104、ROM(Read OnlyMemory,只读存储器)105、RAM(Random Access Memory,随机存取存储器)106、存储部107、通信装置108、以及总线109。各部分通过总线109连接。
CPU101将RAM106的预定区域作为作业区域,通过与在ROM105或者存储部107中预先存储的各种程序的协作来执行各种处理,总体地控制构成语音识别装置10(特征抽出部22、得分计算部26以及路径搜索部30(包括输入符号取得部54、输出符号取得部56、对应关系取得部58、附加符号取得部66以及输出部68))的各部分的动作。另外,CPU101通过与在ROM105或者存储部107中预先存储的程序的协作,实现操作部102、显示部103、麦克风104以及通信装置108等。
操作部102是鼠标、键盘等输入设备,受理由用户操作输入的信息而作为指示信号,将该指示信号输出到CPU101。
显示部103是LCD(Liquid Crystal Display,液晶显示器)等显示装置。显示部103根据来自CPU101的显示信号,显示各种信息。例如,显示部103显示输出符号以及附加符号等。此外,在向通信装置108或者存储部107等输出输出符号以及附加符号等的情况下,语音识别装置10也可以不具备显示部103。
麦克风104是输入语音信号的设备。在进行预先记录的语音信号或者从通信装置108输入的语音信号的模式识别的情况下,语音识别装置10也可以不具备麦克风104。
ROM105以不可改写的方式存储用于语音识别装置10的控制的程序以及各种设定信息等。RAM106是SDRAM(Synchronous Dynamic Random Access Memory,同步动态随机存取存储器)等易失性的存储介质。RAM106作为CPU101的作业区域发挥功能。具体而言,作为将语音识别装置10使用的各种变量以及参数等临时地存储的缓冲器等发挥功能。
存储部107是闪存存储器等利用半导体的存储介质、能够以磁性或者光学方式记录的存储介质等可改写的记录装置。存储部107存储用于语音识别装置10的控制的程序以及各种设定信息等。另外,存储部107存储声学模型存储部24、搜索模型存储部28、输入符号存储部60、输出符号存储部62以及对应关系存储部64等存储的信息。
通信装置108与外部的设备进行通信,用于输出符号以及附加符号等的输出等。在进行预先记录的语音信号或者从麦克风104输入的语音信号的模式识别、且将输出符号以及附加符号等输出到显示部103或者存储部107的情况下,语音识别装置10也可以不具备通信装置108。
在本实施方式的语音识别装置10中执行的程序以可安装的形式或者可执行的形式的文件而被记录到CD-ROM、软盘(FD)、CD-R、DVD(Digital Versatile Disk,数字多功能盘)等计算机可读取的记录介质来提供。
另外,在本实施方式的语音识别装置10中执行的程序也可以构成为储存在与因特网等网络连接的计算机上,通过经由网络下载来提供。另外,在本实施方式的语音识别装置10中执行的程序也可以构成为经由因特网等网络提供或者分发。另外,在本实施方式的语音识别装置10中执行的程序也可以构成为预先嵌入到ROM等来提供。
在本实施方式的语音识别装置10中执行的程序是包括上述特征抽出模块、得分计算模块以及路径搜索模块(包括输入符号取得模块、输出符号取得模块、对应关系取得模块、附加符号取得模块以及输出模块)的模块结构,通过由CPU101(处理器)从存储介质等读出程序并执行从而将上述各部分加载到主存储装置上,在主存储装置上生成特征抽出部22、得分计算部26以及路径搜索部30(包括输入符号取得部54、输出符号取得部56、对应关系取得部58、附加符号取得部66以及输出部68)。此外,特征抽出部22、得分计算部26以及路径搜索部30的一部分或者全部也可以由硬件构成。
虽然说明了本发明的几个实施方式,但这些实施方式仅为例示,并不限定发明的范围。这些新的实施方式能够以其它各种方式实施,能够在不脱离发明的要旨的范围中进行各种省略、置换、变更。这些实施方式、其变形包含于发明的范围、要旨,并且包含于权利要求书记载的发明及其均等的范围中。
此外,能够将上述实施方式归纳为以下的技术方案。
技术方案1
一种语音识别装置,具备:
计算部,根据语音信号,计算将包括每个输入符号的声学得分的多个得分矢量排列而成的得分矢量序列,其中,所述输入符号是预先确定的符号集合的元素;
搜索部,通过搜索对所述得分矢量序列中的似然度高的所述声学得分进行追溯的所述输入符号的路径而生成输入符号串,根据所述输入符号串中所包含的所述输入符号之中的表示识别对象的语言信息的识别对象符号,生成表示所述语音信号的识别结果的输出符号;
附加符号取得部,从所述输入符号串中的与所述输出符号对应的范围中所包含的所述输入符号中,取得表示副语言信息和/或非语言信息的附加符号;以及
输出部,将所述输出符号与所取得的所述附加符号对应关联地进行输出。
技术方案2
根据技术方案1记载的语音识别装置,其中,
所述输入符号表示所述语音信号中所包含的声学信息,
所述声学得分表示由对应的所述输入符号表示的所述声学信息包含于所述语音信号的似然度。
技术方案3
根据技术方案2记载的语音识别装置,其中,
所述副语言信息是通过说话的人发声而附加到所述语音信号的、无法从所述语言信息识别的信息,
所述非语言信息是所述语音信号中所包含的表示所述说话的人的特征的信息。
技术方案4
根据技术方案3记载的语音识别装置,其中,
所述语言信息、所述副语言信息以及所述非语言信息分别是所述声学信息之一,
所述符号集合包括所述识别对象符号以及所述附加符号作为所述输入符号。
技术方案5
根据技术方案4记载的语音识别装置,其中,
无声信息是所述声学信息之一,
所述符号集合还包括表示所述无声信息的无声符号作为所述识别对象符号。
技术方案6
根据技术方案4或者5记载的语音识别装置,其中,
对象外符号是表示所述识别对象符号以及所述附加符号表示的所述声学信息之中的哪个所述声学信息包含于所述语音信号还未定的符号,
所述符号集合还包括对象外符号作为所述输入符号。
技术方案7
根据技术方案1至6中的任一方案记载的语音识别装置,其中,
所述输出部输出根据所述输入符号串生成的多个所述输出符号。
技术方案8
根据技术方案7记载的语音识别装置,其中,
还具备对应关系取得部,该对应关系取得部关于各个所述输出符号,取得表示所述输入符号串中的与所述输出符号对应的范围的对应关系信息,
所述附加符号取得部关于各个所述输出符号,从所述输入符号串中的由所述对应关系信息示出的范围中所包含的所述输入符号中,取得所述附加符号。
技术方案9
根据技术方案8记载的语音识别装置,其中,
所述输入符号串中的与所述输出符号对应的范围是包括成为所述输出符号的生成源的全部所述识别对象符号的连续的范围。
技术方案10
根据技术方案9记载的语音识别装置,其中,
所述输入符号串中的与所述输出符号对应的范围是边界和与前后的其它所述输出符号对应的范围相邻的范围。
技术方案11
根据技术方案1至10中的任一方案记载的语音识别装置,其中,
所述附加符号取得部根据所述输入符号串中的与所述输出符号对应的范围中所包含的所述附加符号的个数,计算所取得的所述附加符号的可靠度,
所述输出部将所述可靠度与对应的所述附加符号一起输出。
技术方案12
根据技术方案1至10中的任一方案记载的语音识别装置,其中,
所述附加符号取得部根据所述输入符号串中的与所述输出符号对应的范围中所包含的所述附加符号的位置,计算所取得的所述附加符号的可靠度,
所述输出部将所述可靠度与对应的所述附加符号一起输出。
技术方案13
根据技术方案1至12中的任一方案记载的语音识别装置,其中,
所述附加符号取得部取得所述输入符号串中的与所述输出符号对应的范围内的预先确定的位置处所包含的所述附加符号。
技术方案14
根据技术方案13记载的语音识别装置,其中,
所述附加符号取得部取得所述输入符号串中的与所述输出符号对应的范围内的比最后的所述识别对象符号靠后地包含的所述附加符号。
技术方案15
根据技术方案1至14中的任一方案记载的语音识别装置,其中,
所述搜索部搜索所述得分矢量序列,生成一个所述输入符号串。
技术方案16
根据技术方案1至14中的任一方案记载的语音识别装置,其中,
所述搜索部搜索所述得分矢量序列,生成M个(M是2以上的整数)所述输入符号串,
所述搜索部关于各个所述输入符号串,生成所述输出符号,
所述附加符号取得部关于各个所述输入符号串,取得所述附加符号,
所述输出部关于各个所述输入符号串,将所述输出符号与所述附加符号对应关联地进行输出。
技术方案17
一种语音识别方法,其中,
信息处理装置根据语音信号,计算将包括每个输入符号的声学得分的多个得分矢量排列而成的得分矢量序列,其中,所述输入符号是预先确定的符号集合的元素,
所述信息处理装置通过搜索对所述得分矢量序列中的似然度高的所述声学得分进行追溯的所述输入符号的路径而生成输入符号串,根据所述输入符号串中所包含的所述输入符号之中的表示识别对象的语言信息的识别对象符号,生成表示所述语音信号的识别结果的输出符号,
所述信息处理装置从所述输入符号串中的与所述输出符号对应的范围中所包含的所述输入符号中,取得表示副语言信息和/或非语言信息的附加符号,
所述信息处理装置将所述输出符号与所取得的所述附加符号对应关联地进行输出。
技术方案18
一种存储介质,储存有用于使信息处理装置作为语音识别装置发挥功能的程序,其中,
所述程序使所述信息处理装置作为如下部件发挥功能:
计算部,根据语音信号,计算将包括每个输入符号的声学得分的多个得分矢量排列而成的得分矢量序列,其中,所述输入符号是预先确定的符号集合的元素;
搜索部,通过搜索对所述得分矢量序列中的似然度高的所述声学得分进行追溯的所述输入符号的路径而生成输入符号串,根据所述输入符号串中所包含的所述输入符号之中的表示识别对象的语言信息的识别对象符号,生成表示所述语音信号的识别结果的输出符号;
附加符号取得部,从所述输入符号串中的与所述输出符号对应的范围中所包含的所述输入符号中,取得表示副语言信息和/或非语言信息的附加符号;以及
输出部,将所述输出符号与所取得的所述附加符号对应关联地进行输出。
Claims (10)
1.一种语音识别装置,具备:
计算部,根据语音信号,计算将包括每个输入符号的声学得分的多个得分矢量排列而成的得分矢量序列,其中,所述输入符号是预先确定的符号集合的元素;
搜索部,通过搜索对所述得分矢量序列中的似然度高的所述声学得分进行追溯的所述输入符号的路径而生成输入符号串,根据所述输入符号串中所包含的所述输入符号之中的表示识别对象的语言信息的识别对象符号,生成表示所述语音信号的识别结果的输出符号;
附加符号取得部,从所述输入符号串中的与所述输出符号对应的范围中所包含的所述输入符号中,取得表示副语言信息和/或非语言信息的附加符号,计算所取得的所述附加符号的可靠度;以及
输出部,将所述输出符号与所取得的所述附加符号对应关联地进行输出,并且将所述可靠度与对应的所述附加符号一起输出,
所述可靠度是基于所述输入符号串中的与所述输出符号对应的范围中所包含的所述附加符号的个数的值、或者基于所述输入符号串中的与所述输出符号对应的范围中所包含的所述附加符号的位置的值。
2.根据权利要求1所述的语音识别装置,其中,
所述输入符号表示所述语音信号中所包含的声学信息,
所述声学得分表示由对应的所述输入符号表示的所述声学信息包含于所述语音信号的似然度。
3.根据权利要求2所述的语音识别装置,其中,
所述副语言信息是通过说话的人发声而附加到所述语音信号的、无法从所述语言信息识别的信息,
所述非语言信息是所述语音信号中所包含的表示所述说话的人的特征的信息。
4.根据权利要求3所述的语音识别装置,其中,
所述语言信息、所述副语言信息以及所述非语言信息分别是所述声学信息之一,
所述符号集合包括所述识别对象符号以及所述附加符号作为所述输入符号。
5.根据权利要求4所述的语音识别装置,其中,
无声信息是所述声学信息之一,
所述符号集合还包括表示所述无声信息的无声符号作为所述识别对象符号。
6.根据权利要求4或者5所述的语音识别装置,其中,
对象外符号是表示所述识别对象符号以及所述附加符号表示的所述声学信息之中的哪个所述声学信息包含于所述语音信号还未定的符号,
所述符号集合还包括对象外符号作为所述输入符号。
7.根据权利要求1所述的语音识别装置,其中,
所述输出部输出根据所述输入符号串生成的多个所述输出符号。
8.根据权利要求7所述的语音识别装置,其中,
还具备对应关系取得部,该对应关系取得部关于各个所述输出符号,取得表示所述输入符号串中的与所述输出符号对应的范围的对应关系信息,
所述附加符号取得部关于各个所述输出符号,从所述输入符号串中的由所述对应关系信息示出的范围中所包含的所述输入符号中,取得所述附加符号。
9.一种语音识别方法,其中,
信息处理装置根据语音信号,计算将包括每个输入符号的声学得分的多个得分矢量排列而成的得分矢量序列,其中,所述输入符号是预先确定的符号集合的元素,
所述信息处理装置通过搜索对所述得分矢量序列中的似然度高的所述声学得分进行追溯的所述输入符号的路径而生成输入符号串,根据所述输入符号串中所包含的所述输入符号之中的表示识别对象的语言信息的识别对象符号,生成表示所述语音信号的识别结果的输出符号,
所述信息处理装置从所述输入符号串中的与所述输出符号对应的范围中所包含的所述输入符号中,取得表示副语言信息和/或非语言信息的附加符号,计算所取得的所述附加符号的可靠度,
所述信息处理装置将所述输出符号与所取得的所述附加符号对应关联地进行输出,并且将所述可靠度与对应的所述附加符号一起输出,
所述可靠度是基于所述输入符号串中的与所述输出符号对应的范围中所包含的所述附加符号的个数的值、或者基于所述输入符号串中的与所述输出符号对应的范围中所包含的所述附加符号的位置的值。
10.一种存储介质,储存有用于使信息处理装置作为语音识别装置发挥功能的程序,其中,
所述程序使所述信息处理装置作为如下部件发挥功能:
计算部,根据语音信号,计算将包括每个输入符号的声学得分的多个得分矢量排列而成的得分矢量序列,其中,所述输入符号是预先确定的符号集合的元素;
搜索部,通过搜索对所述得分矢量序列中的似然度高的所述声学得分进行追溯的所述输入符号的路径而生成输入符号串,根据所述输入符号串中所包含的所述输入符号之中的表示识别对象的语言信息的识别对象符号,生成表示所述语音信号的识别结果的输出符号;
附加符号取得部,从所述输入符号串中的与所述输出符号对应的范围中所包含的所述输入符号中,取得表示副语言信息和/或非语言信息的附加符号,计算所取得的所述附加符号的可靠度;以及
输出部,将所述输出符号与所取得的所述附加符号对应关联地进行输出,并且将所述可靠度与对应的所述附加符号一起输出,
所述可靠度是基于所述输入符号串中的与所述输出符号对应的范围中所包含的所述附加符号的个数的值、或者基于所述输入符号串中的与所述输出符号对应的范围中所包含的所述附加符号的位置的值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016-220855 | 2016-11-11 | ||
JP2016220855A JP6585022B2 (ja) | 2016-11-11 | 2016-11-11 | 音声認識装置、音声認識方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108074562A CN108074562A (zh) | 2018-05-25 |
CN108074562B true CN108074562B (zh) | 2021-12-03 |
Family
ID=62108000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710759611.8A Active CN108074562B (zh) | 2016-11-11 | 2017-08-30 | 语音识别装置、语音识别方法以及存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10803858B2 (zh) |
JP (1) | JP6585022B2 (zh) |
CN (1) | CN108074562B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7199264B2 (ja) * | 2019-03-18 | 2023-01-05 | 株式会社東芝 | 認識装置、認識方法及びプログラム |
CN110138654B (zh) * | 2019-06-06 | 2022-02-11 | 北京百度网讯科技有限公司 | 用于处理语音的方法和装置 |
CN110310624A (zh) * | 2019-07-03 | 2019-10-08 | 中山大学新华学院 | 一种高效副语音检测识别方法及装置 |
JP7290507B2 (ja) * | 2019-08-06 | 2023-06-13 | 本田技研工業株式会社 | 情報処理装置、情報処理方法、認識モデルならびにプログラム |
CN112420028B (zh) * | 2020-12-03 | 2024-03-19 | 上海欣方智能系统有限公司 | 一种用于对语音信号进行语义识别的系统及方法 |
US20240062021A1 (en) * | 2022-08-22 | 2024-02-22 | Oracle International Corporation | Calibrating confidence scores of a machine learning model trained as a natural language interface |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07287594A (ja) * | 1994-04-20 | 1995-10-31 | Hitachi Ltd | 音声認識・言語処理装置 |
CN1506937A (zh) * | 2002-12-12 | 2004-06-23 | ��ʽ���������Ƽ� | 语音识别装置 |
CN1573924A (zh) * | 2003-06-20 | 2005-02-02 | PtoPA株式会社 | 语音识别设备、语音识别方法、会话控制设备以及会话控制方法 |
EP1511009A1 (en) * | 2003-08-27 | 2005-03-02 | Kabushiki Kaisha Kenwood | Voice labeling error detecting system, and method and program thereof |
CN1588535A (zh) * | 2004-09-29 | 2005-03-02 | 上海交通大学 | 嵌入式语音识别系统的自动语音识别处理方法 |
JP2005352311A (ja) * | 2004-06-11 | 2005-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成装置および音声合成プログラム |
KR100748720B1 (ko) * | 2006-02-09 | 2007-08-13 | 삼성전자주식회사 | 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치 |
JP2008242059A (ja) * | 2007-03-27 | 2008-10-09 | Mitsubishi Electric Corp | 音声認識辞書作成装置および音声認識装置 |
JP2008243043A (ja) * | 2007-03-28 | 2008-10-09 | Toshiba Corp | 音声翻訳装置、方法およびプログラム |
JP2009146043A (ja) * | 2007-12-12 | 2009-07-02 | National Institute Of Information & Communication Technology | 音声翻訳装置、音声翻訳方法、及びプログラム |
CN101647021A (zh) * | 2007-04-13 | 2010-02-10 | 麻省理工学院 | 语音数据检索装置、语音数据检索方法、语音数据检索程序和包含有语音数据检索程序的计算机可用介质 |
CN101763855A (zh) * | 2009-11-20 | 2010-06-30 | 安徽科大讯飞信息科技股份有限公司 | 语音识别的置信度判决方法及装置 |
CN102592595A (zh) * | 2012-03-19 | 2012-07-18 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN103680505A (zh) * | 2013-09-03 | 2014-03-26 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN103730115A (zh) * | 2013-12-27 | 2014-04-16 | 北京捷成世纪科技股份有限公司 | 一种语音中检测关键词的方法和装置 |
US8972243B1 (en) * | 2012-11-20 | 2015-03-03 | Amazon Technologies, Inc. | Parse information encoding in a finite state transducer |
CN105009206A (zh) * | 2013-03-06 | 2015-10-28 | 三菱电机株式会社 | 语音识别装置和语音识别方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6574595B1 (en) | 2000-07-11 | 2003-06-03 | Lucent Technologies Inc. | Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition |
US7103543B2 (en) | 2001-05-31 | 2006-09-05 | Sony Corporation | System and method for speech verification using a robust confidence measure |
JP2005500580A (ja) | 2001-08-14 | 2005-01-06 | ソニー エレクトロニクス インク | ロバストな信頼度尺度を用いて音声検証を行う装置及び方法 |
EP1603116A1 (en) | 2003-02-19 | 2005-12-07 | Matsushita Electric Industrial Co., Ltd. | Speech recognition device and speech recognition method |
JP4790208B2 (ja) | 2003-06-24 | 2011-10-12 | 中国塗料株式会社 | エポキシ樹脂組成物、該組成物から形成された防食皮膜、および該防食皮膜で被覆された防食皮膜付き基材、並びに基材の防食方法 |
JP3984207B2 (ja) * | 2003-09-04 | 2007-10-03 | 株式会社東芝 | 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム |
US7464031B2 (en) | 2003-11-28 | 2008-12-09 | International Business Machines Corporation | Speech recognition utilizing multitude of speech features |
JP4552533B2 (ja) * | 2004-06-30 | 2010-09-29 | ソニー株式会社 | 音響信号処理装置及び音声度合算出方法 |
JP4557919B2 (ja) * | 2006-03-29 | 2010-10-06 | 株式会社東芝 | 音声処理装置、音声処理方法および音声処理プログラム |
US9431006B2 (en) * | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10002608B2 (en) * | 2010-09-17 | 2018-06-19 | Nuance Communications, Inc. | System and method for using prosody for voice-enabled search |
KR20120066530A (ko) * | 2010-12-14 | 2012-06-22 | 한국전자통신연구원 | 언어 모델 가중치 추정 방법 및 이를 위한 장치 |
US20140337031A1 (en) | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Method and apparatus for detecting a target keyword |
JP6315980B2 (ja) | 2013-12-24 | 2018-04-25 | 株式会社東芝 | デコーダ、デコード方法およびプログラム |
JP6301664B2 (ja) | 2014-01-31 | 2018-03-28 | 株式会社東芝 | 変換装置、パターン認識システム、変換方法およびプログラム |
-
2016
- 2016-11-11 JP JP2016220855A patent/JP6585022B2/ja active Active
-
2017
- 2017-08-25 US US15/686,410 patent/US10803858B2/en active Active
- 2017-08-30 CN CN201710759611.8A patent/CN108074562B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07287594A (ja) * | 1994-04-20 | 1995-10-31 | Hitachi Ltd | 音声認識・言語処理装置 |
CN1506937A (zh) * | 2002-12-12 | 2004-06-23 | ��ʽ���������Ƽ� | 语音识别装置 |
CN1573924A (zh) * | 2003-06-20 | 2005-02-02 | PtoPA株式会社 | 语音识别设备、语音识别方法、会话控制设备以及会话控制方法 |
EP1511009A1 (en) * | 2003-08-27 | 2005-03-02 | Kabushiki Kaisha Kenwood | Voice labeling error detecting system, and method and program thereof |
JP2005352311A (ja) * | 2004-06-11 | 2005-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成装置および音声合成プログラム |
CN1588535A (zh) * | 2004-09-29 | 2005-03-02 | 上海交通大学 | 嵌入式语音识别系统的自动语音识别处理方法 |
KR100748720B1 (ko) * | 2006-02-09 | 2007-08-13 | 삼성전자주식회사 | 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치 |
JP2008242059A (ja) * | 2007-03-27 | 2008-10-09 | Mitsubishi Electric Corp | 音声認識辞書作成装置および音声認識装置 |
JP2008243043A (ja) * | 2007-03-28 | 2008-10-09 | Toshiba Corp | 音声翻訳装置、方法およびプログラム |
CN101647021A (zh) * | 2007-04-13 | 2010-02-10 | 麻省理工学院 | 语音数据检索装置、语音数据检索方法、语音数据检索程序和包含有语音数据检索程序的计算机可用介质 |
JP2009146043A (ja) * | 2007-12-12 | 2009-07-02 | National Institute Of Information & Communication Technology | 音声翻訳装置、音声翻訳方法、及びプログラム |
CN101763855A (zh) * | 2009-11-20 | 2010-06-30 | 安徽科大讯飞信息科技股份有限公司 | 语音识别的置信度判决方法及装置 |
CN102592595A (zh) * | 2012-03-19 | 2012-07-18 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
US8972243B1 (en) * | 2012-11-20 | 2015-03-03 | Amazon Technologies, Inc. | Parse information encoding in a finite state transducer |
CN105009206A (zh) * | 2013-03-06 | 2015-10-28 | 三菱电机株式会社 | 语音识别装置和语音识别方法 |
CN103680505A (zh) * | 2013-09-03 | 2014-03-26 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN103730115A (zh) * | 2013-12-27 | 2014-04-16 | 北京捷成世纪科技股份有限公司 | 一种语音中检测关键词的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US10803858B2 (en) | 2020-10-13 |
JP6585022B2 (ja) | 2019-10-02 |
JP2018077440A (ja) | 2018-05-17 |
US20180137863A1 (en) | 2018-05-17 |
CN108074562A (zh) | 2018-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108074562B (zh) | 语音识别装置、语音识别方法以及存储介质 | |
JP6188831B2 (ja) | 音声検索装置および音声検索方法 | |
US10319365B1 (en) | Text-to-speech processing with emphasized output audio | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
JP5322655B2 (ja) | 莫大な語彙を有する音声認識システム | |
US5949961A (en) | Word syllabification in speech synthesis system | |
JP5318230B2 (ja) | 認識辞書作成装置及び音声認識装置 | |
US10319373B2 (en) | Information processing device, information processing method, computer program product, and recognition system | |
CN108091334B (zh) | 识别装置、识别方法以及存储介质 | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
JPWO2009025356A1 (ja) | 音声認識装置および音声認識方法 | |
JP2008262279A (ja) | 音声検索装置 | |
JP6690484B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
JP5276610B2 (ja) | 言語モデル生成装置、そのプログラムおよび音声認識システム | |
JP6599914B2 (ja) | 音声認識装置、音声認識方法およびプログラム | |
JP6481939B2 (ja) | 音声認識装置および音声認識プログラム | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP2011007862A (ja) | 音声認識装置、音声認識プログラム、および音声認識方法 | |
KR20200084130A (ko) | 사용자 발화의 오류를 교정하는 방법 및 장치 | |
JP6009396B2 (ja) | 発音付与方法とその装置とプログラム | |
JP5772219B2 (ja) | 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム | |
JP2016177046A (ja) | 音声認識装置および音声認識プログラム | |
Jiang et al. | An LVCSR Based Reading Miscue Detection System with Knowledge of Reference and Error Patterns Dynamically Incorporated | |
JPH0744188A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |