CN102956231A - 基于半自动校正的语音关键信息记录装置及方法 - Google Patents
基于半自动校正的语音关键信息记录装置及方法 Download PDFInfo
- Publication number
- CN102956231A CN102956231A CN2011102433795A CN201110243379A CN102956231A CN 102956231 A CN102956231 A CN 102956231A CN 2011102433795 A CN2011102433795 A CN 2011102433795A CN 201110243379 A CN201110243379 A CN 201110243379A CN 102956231 A CN102956231 A CN 102956231A
- Authority
- CN
- China
- Prior art keywords
- information
- key information
- correction
- key
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 124
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000012790 confirmation Methods 0.000 claims abstract description 24
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000010224 classification analysis Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 4
- 239000002245 particle Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
一种语音识别技术领域的基于半自动校正的语音关键信息记录装置及方法,该装置包括:关键信息提取单元和与之相连的信息校正单元,其中:关键信息提取单元获取未经校正的文本信息并提取出关键信息后输出至信息校正单元,信息校正单元输出用户反馈确认后的文本信息。本发明通过半自动的信息校正单元,降低了人工校正的工作量;利用数据库对特殊名词如地名、专业工具名称进行校正,降低了人工校正中操作员的知识量限制所造成的影响;提取语音信息中的关键信息,从而提高所记录信息的有效信息量。
Description
技术领域
本发明涉及的是一种语音识别技术领域的装置及方法,具体是一种基于半自动校正的语音关键信息记录装置及方法,通过对语音信号进行识别,并以文本形式进行记录,在用户不便对语音信息进行文字记录时,可替代用户完成语音信息的文字记录。
背景技术
受限于语音信号识别技术,已知的记录装置在对收到的语音信号进行自动识别后,通过操作员的人工校正,以确保所记录信息的准确性。由此,使得记录装置的正常运作需要大量的人工校正工作;并且,语音信号中所提及的一些信息,可能由于操作员本身的知识量限制,无法做出有效地修正,比如一些地名或专业工具名称等。
已知的记录装置,是对全部的语音信息进行识别记录。但是,语音信息中会出现大量无意义的信息,比如通话过程中的问候语、助词、语气词。真实有效的信息通常仅为全部语音信息的一部分。识别并记录全部语音信息,一方面加大了文本信息校正的工作量;另一方面,用户也不需要诸如问候语之类的信息记录。语音信息记录,应尽可能精简,提供最多的有效信息量。
经过对现有技术的检索发现,英国专利文献GB2323693A,记载了一种“Speech to textconversion”(语言文字转换系统),该技术包括至少一个用户终端用于录制语音,至少一个自动语音识别处理器以将录制的语音生成为文本,以及用于将文本反馈至终端的通讯装置;该用户终端与自动语音识别处理器之间通过服务器进行远程且选择性控制传输录制的语音文件。该技术还包括一选择纠正器,并由该技术的业务操作员对所识别出的文本信息进行纠错,最后将更正后的文本信息储存并反馈给用户。
但是该现有技术需要业务操作员识别全部文本信息,且这些文本信息均为语音识别装置直接识别结果。一方面,全部文本信息中包含大量无意义信息,如通话过程中的问候语、助词、语气词,真实有效的信息仅占其中一部分,业务操作员识别全部文本信息加重了业务操作员的工作量。另一方面,语音识别装置直接识别结果中,一类信息为特殊名词、专有名词,由业务操作员负责对此类信息进行纠错,使得纠错的准确率依赖于业务员的知识量,存在错误纠错的风险;另一类信息,存在一定的格式上的要求,如时间信息,可通过算法进行自动纠错,若此类信息的纠错交由业务操作员,亦加重了业务操作员的纠错工作量。
发明内容
本发明针对现有技术存在的上述不足,提供一种基于半自动校正的语音关键信息记录装置及方法,通过半自动的信息校正单元,降低了人工校正的工作量;利用数据库对特殊名词如地名、专业工具名称进行校正,降低了人工校正中操作员的知识量限制所造成的影响;提取语音信息中的关键信息,从而提高所记录信息的有效信息量。
本发明是通过以下技术方案实现的:
本发明涉及一种基于半自动校正的语音关键信息记录装置,包括:关键信息提取单元和与之相连的信息校正单元,其中:关键信息提取单元获取未经校正的文本信息并提取出关键信息后输出至信息校正单元,信息校正单元输出用户反馈确认后的文本信息。
所述的信息校正单元包括:冗余信息校正模块、时间信息校正模块、特殊名词校正模块和用户反馈确认模块,其中:冗余信息校正模块的输入端与关键信息提取单元相连,输出端与时间信息校正模块相连并将冗余信息校正后的关键信息传输给输出端;时间信息校正模块的输入端与冗余信息校正模块相连,输出端与特殊名词校正模块相连并将冗余信息校正、时间信息校正后的关键信息传递给输出端;特殊名词校正模块的输入端与时间信息校正模块相连,输出端与用户反馈确认模块相连并将冗余信息校正、时间信息校正、特殊名词校正后的关键信息传递给输出端。用户反馈确认模块的输入端与特殊名词校正模块相连并将冗余信息校正、时间信息校正、特殊名词校正后的关键信息经用户反馈确认后输出。
所述的关键信息提取单元包括:句法分析器模块和分类器模块,其中:句法分析器模块的输入端与语音识别单元相连,输出端与分类器模块相连并将经句法分析后的词语、短语传输给输出端;分类器模块的输入端与句法分析器模块相连,输出端与信息校正单元相连并将分类后的信息中的关键信息传输给输出端。
本发明涉及一种基于半自动校正的语音关键信息记录方法,包括以下步骤:
第一步,由用户处获得的语音信息通过语音识别软件获得语音信号所表达的未经校正的文本信息。
所述的语音识别软件采用卡耐基梅隆大学的开源语音识别软件Sphinx进行自动语音识别。
第二步,关键信息提取单元依次对未经校正的文本信息进行句法分析和分类分析得到时间信息、关键信息词类及特殊名词信息,并将上述信息作为关键信息传输至输出端。
所述的句法分析是指:对所获得的未经校正的文本信息采用句法分析器进行句法分析,实现对文本信息中语句的分词,从而将文本信息中的连续语句转化为各种词语和/或短语;
所述的句法分析器采用斯坦福大学的开源句法分析器Stanford Parser进行句法分析。
所述的分类分析是指:对分类器采用汉语词性标注语料库进行训练后,采用分类器先从上述词语和/或短语中分类出时间信息及关键信息词类;此后再采用常用词库对分类器进行训练,并用分类器对关键信息词类中的名词部分,进一部分类获得常用词信息与非常用词信息;其中的非常用词信息即为特殊名词信息。
所述的分类器采用贝叶斯文本分类器。
所述的关键信息词类是指:名词、动词、数词、形容词、副词、介词以及代词。
所述的特殊名词信息是指:名词中的非常用词信息部分。
第三步,信息校正单元对关键信息依次进行冗余信息校正、时间信息校正以及特殊名词校正并最终得到校正后的关键信息,以消除语音识别过程中,由于口音以及识别单元自身性能影响所造成的识别误差,确保信息记录的准确性。
所述的冗余信息校正是指:
1)计算任一两个关键信息A与B之间的编码距离d(A,B):
其中:sizeof(X)为关键信息X的ASCII编码的字节数,xi为关键信息X的ASCII编码的第i个字节的数值,且若i>sizeof(X),则xi=0;当编码距离d(A,B)=0的关键信息A与关键信息B为相同关键信息,编码距离0<d(A,B)<T的关键信息A与关键信息B则为相似关键信息,T相似阈值。
2)将相同关键信息与相似关键信息一起形成一个相似关键信息集合,当关键信息C与现有某一个相似关键信息集合中任意一条关键信息相同,或与现有某一个相似关键信息集合中一半以上相似,则将关键信息C加入该关键信息集合;
3)在确定相似关键信息集合后,选取该集合中出现频率最高的关键信息M并将该相似关键信息集合中其余的关键信息均替换为关键信息M。
所述的时间信息校正是指:
a)首先提取时间信息内的时间信息对,并检验时间信息对中的各元素,即H(时)、M(分)、S(秒),是否符合二十四小时制、六十分钟制以及六十秒制;
所述的提取是指:依据关键信息中的“点”、“分”、“秒”字眼进行分割,将“点”之前的认为是时间信息对中的元素H,“点”与“分”之间的认为是时间信息对中的元素M,“分”与“秒”之间的认为是时间信息对中的元素S;当无法找到相应元素,则将时间信息对中的相应元素置为零。
b)当元素不符合时间信息规格约定,则对尝试其进行自动校正,若无法自动校正,则将该时间信息认定为识别有误时间信息,并传递至用户反馈确认模块进行手动纠错确认。
所述的特殊名词校正是指:将语音识别并分类后的关键信息中的特殊名词信息作为检索词条输出至外部数据库资源,然后利用外部数据库的海量数据资源及其所提供的纠错策略。
所述的外部数据库包括:互联网以及电子词典。
第四步、信息校正单元将校正后的关键信息传输给用户反馈确认模块,由用户进行最终确认,以确保信息的准确性。
所述的最终确认采用短消息、语音电话和移动网络传输至用户进行反馈确认,确认后的信息保存于用户的终端以作备忘。
本发明的有益效果包括:
1)利用关键信息提取及自动校正,降低了对识别后的文本信息进行人工校正的工作量。
2)利用外部数据库资源对特殊名词信息进行校正,降低了人工校正时操作员知识量对信息校正质量的影响,提高了对特殊名词信息进行文本记录的准确度。
3)利用关键信息提取,仅把重要的核心的信息提交给用户,过滤了不重要甚至无意义的信息,提高了记录文本的有效信息量。
附图说明
图1实施例应用示意图。
图2关键信息提取单元的结构示意图。
图3关键信息数据结构。
图4冗余信息校正处理流程图。
图5时间信息校正处理流程图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
如图1所示,本实施例通过引入语音识别单元1100进行从语音到文本的全套识别应用。本实施例中所涉及的基于半自动校正的语音关键信息记录装置包括:关键信息提取单元1200和信息校正单元1300,其中:语音识别单元1100将语音信号进行自动语音识别并获得语音信号所表达的未经校正的文本信息,
所述的语音识别单元采用语音识别软件实现,在本实施例中使用卡耐基梅隆大学的开源语音识别软件Sphinx。
所述的关键信息提取单元1200将语音识别单元所获得的文本信息进行关键信息的提取。
如图2所示,所述的关键信息提取单元1200的实现可由句法分析器1210与分类器1220级联而成。语音识别单元1100所识别获得的文本信息作为句法分析器1210的输入数据。句法分析器1210的输出数据,作为分类器1220的输入数据。
所述的句法分析器1210采用斯坦福大学的开源句法分析器Stanford Parser中所提供的中文句法分析命令chinesesegmenter实现。句法分析器的输入即为语音识别软件所识别获得的文本信息,句法分析器的输出仍以文本形式储存并传输给输出端分类器进行分类。
所述的分类器1220利用贝叶斯文本分类器实现。贝叶斯文本分类器的训练语料库来源于汉语词性标注语料库。本实施例中的贝叶斯文本分类器,经过该语料库训练后,即可对的输入端Stanford Parser所提供的词语、短语按时间信息及词性进行分类。此后,再次使用该分类器,对分类结果中的名词进行进一步细分,以常用词库作为分类器训练语料库,分类出名词信息中的常用词信息与非常用词信息。两级分类后的时间信息即作为时间信息传输给输出端使用;非常用词信息即作为特殊名词信息,传输给输出端使用;名词中的常用词信息、动词、数词、形容词、副词、介词、代词作为其他信息传输给输出端使用。
所述的关键信息提取单元1200的输出遵从图3中所定义的数据结构,具体为:每一条关键信息结构体KeyInfo Struct[i]为一个由关键信息InfoData、关键信息所属分类InfoClass、标签InfoTag三个域所组成的结构体。所有这些关键信息结构体的集合,即结构体数组KeyInfo_Struct[],即为关键信息提取单元的输出。
如图1所示,所述的信息校正单元1300包括:冗余信息校正模块1310、时间信息校正模块1320、特殊名词校正模块1330和用户反馈确认模块1340,其中:冗余信息校正模块1310采用语音识别概率纠错算法对关键信息进行冗余信息校正。定义二维数组SimInfo[M][N]为相似关键信息数组。其第一维序号为相似关键信息集合编号,第二维存储每一个相似关键信息集合中所含的关键信息编号。即SimInfo[2]={1,4,5}代表相似关键信息集合2包含关键信息1,4,5。如图4所示,冗余信息校正模块1310依实施例内容中所述语音识别概率纠错算法首先将的输入端输入的各关键信息合并入相似关键信息集合。判断是否可以加入相似关键信息集合1311的过程中,本实施例所使用的相似阈值T取值为0.1。此后,冗余信息校正模块1310遍历各相似关键信息集合,并以每个相似关键信息集合中出现频率最高的关键信息替换该相似关键信息集合中其余的关键信息。
所述的时间信息校正模块1320指对于关键信息提取单元1200分类所得的时间信息,校正其中不符合时间规格的关键信息。在本实施例中对中文语音的时间信息的小时数进行了校正。时间信息校正模块1320首先从关键信息提取单元1200所提取的时间信息中提取获得时间信息对(H,M,S)。本实施例中以中文的“点”、“时”之前的信息作为时间信息对元素H,以中文的“点”、“时”与“分”之间的信息认为是时间信息对中的元素M,以中文的“分”之后的信息认为是时间信息对中的元素S。本实施例对时间信息对中的各元素H,M,S进行检测,判断其是否符合时间规格;并对元素H进行校正。
由于元素H的取值只能为0~24,故中的H只可能为“几”如“五”或“十几”如“十五”或“二十几”如“二十一”这三种模式;且后两种模式的最低位“几”只可能为0~9。
如图5所示,为元素H的校正过程:当识别所得的时间信息的小时数只有一位即H的模式为“几”则跳过对该条信息的校正。反之,则当小时数的次低位不为“十”时即存在错误的语音识别,将其自动校正为“十”;同样,当小时数的最低位为“十”时,将其自动校正为“四”。
本实施例中的时间信息校正单元1320,对检测到不符合时间规格但无法自动校正的识别有误时间信息,在该时间信息的关键信息结构体KeyInfo Struct的InfoTag域进行标示,并传输给输出端。
所述的特殊名词校正模块1330对关键信息提取单元模块1200中所得到的特殊名词,利用外部数据库资源进行校正。本实施例中,通过搜索引擎的纠错机制利用互联网数据库对特殊名词进行校正。即:将提取所得的特殊名词信息,提交给外部搜索引擎如Google所提供的搜索API接口;连接入互联网进行搜索后,当返回页面中,对所提交的关键信息进行了纠错,则以搜索引擎的纠错结果作为校正结果。搜索引擎纠错结果的提取,可通过文本处理软件如grep,sed对返回页面的文本进行过滤获得。
经上述三种自动校正处理后的关键信息,最后反馈给用户,进行最终的用户反馈校正1340。在本实施例中,此部分即借助显示屏、输入设备利用UI程序实现与用户的交互。
经分析,以词为统计单位,在语音环境下,本实施例所规定之关键信息占全部信息的比例为61.8%。即采用本实施例所提出的关键信息提取单元后,递交给输出端进行语音识别校正的信息仅为全部信息的61.8%。而辅以三种类型自动校正的语音信息校正,亦减轻了人工校正的工作量。
Claims (13)
1.一种基于半自动校正的语音关键信息记录装置,其特征在于,包括:关键信息提取单元和与之相连的信息校正单元,其中:关键信息提取单元获取未经校正的文本信息并提取出关键信息后输出至信息校正单元,信息校正单元输出用户反馈确认后的文本信息。
2.根据权利要求1所述的基于半自动校正的语音关键信息记录装置,其特征是,所述的信息校正单元包括:冗余信息校正模块、时间信息校正模块、特殊名词校正模块和用户反馈确认模块,其中:冗余信息校正模块的输入端与关键信息提取单元相连,输出端与时间信息校正模块相连并将冗余信息校正后的关键信息传输给输出端;时间信息校正模块的输入端与冗余信息校正模块相连,输出端与特殊名词校正模块相连并将冗余信息校正、时间信息校正后的关键信息传递给输出端;特殊名词校正模块的输入端与时间信息校正模块相连,输出端与用户反馈确认模块相连并将冗余信息校正、时间信息校正、特殊名词校正后的关键信息传递给输出端。用户反馈确认模块的输入端与特殊名词校正模块相连并将冗余信息校正、时间信息校正、特殊名词校正后的关键信息经用户反馈确认后输出。
3.根据权利要求1所述的基于半自动校正的语音关键信息记录装置,其特征是,所述的关键信息提取单元包括:句法分析器模块和分类器模块,其中:句法分析器模块的输入端与语音识别单元相连,输出端与分类器模块相连并将经句法分析后的词语、短语传输给输出端;分类器模块的输入端与句法分析器模块相连,输出端与信息校正单元相连并将分类后的信息中的关键信息传输给输出端。
4.一种基于半自动校正的语音关键信息记录方法,其特征在于,包括以下步骤:
第一步,由用户处获得的语音信息通过语音识别软件获得语音信号所表达的未经校正的文本信息;
第二步,关键信息提取单元依次对未经校正的文本信息进行句法分析和分类分析得到时间信息、关键信息词类及特殊名词信息并作为关键信息传输至输出端;
第三步,信息校正单元对关键信息依次进行冗余信息校正、时间信息校正以及特殊名词校正并最终得到校正后的关键信息;
第四步、信息校正单元将校正后的关键信息传输给用户反馈确认模块,由用户进行最终确认。
5.根据权利要求4所述的语音关键信息记录方法,其特征是,所述的句法分析是指:对所获得的未经校正的文本信息采用句法分析器进行句法分析,实现对文本信息中语句的分词,从而将文本信息中的连续语句转化为各种词语和/或短语。
6.根据权利要求4所述的语音关键信息记录方法,其特征是,所述的分类分析是指:对分类器采用汉语词性标注语料库进行训练后,采用分类器先从上述词语和/或短语中分类出时间信息及关键信息词类;此后再采用常用词库对分类器进行训练,并用分类器对关键信息词类中的名词部分,进一部分类获得常用词信息与非常用词信息;其中的非常用词信息即为特殊名词信息。
7.根据权利要求6所述的语音关键信息记录方法,其特征是,所述的分类器采用贝叶斯文本分类器。
8.根据权利要求6所述的语音关键信息记录方法,其特征是,所述的关键信息词类是指:名词、动词、数词、形容词、副词、介词以及代词;所述的特殊名词信息是指:名词中的非常用词信息部分。
9.根据权利要求4所述的语音关键信息记录方法,其特征是,所述的冗余信息校正是指:
1)计算任一两个关键信息A与B之间的编码距离d(A,B):
其中:sizeof(X)为关键信息X的ASCII编码的字节数,xi为关键信息X的ASCII编码的第i个字节的数值,且若i>sizeof(X),则xi=0;当编码距离d(A,B)=0的关键信息A与关键信息B为相同关键信息,编码距离0<d(A,B)<T的关键信息A与关键信息B则为相似关键信息,T相似阈值;
2)将相同关键信息与相似关键信息一起形成一个相似关键信息集合,当关键信息C与现有某一个相似关键信息集合中任意一条关键信息相同,或与现有某一个相似关键信息集合中一半以上相似,则将关键信息C加入该关键信息集合;
3)在确定相似关键信息集合后,选取该集合中出现频率最高的关键信息M并将该相似关键信息集合中其余的关键信息均替换为关键信息M。
10.根据权利要求4所述的语音关键信息记录方法,其特征是,所述的时间信息校正是指:
a)首先提取时间信息内的时间信息对,并检验时间信息对中的各元素,即H、M、s,是否符合二十四小时制、六十分钟制以及六十秒制;
b)当元素不符合时间信息规格约定,则对尝试其进行自动校正,若无法自动校正,则将该时间信息认定为识别有误时间信息,并传递至用户反馈确认模块进行手动纠错确认。
11.根据权利要求10所述的语音关键信息记录方法,其特征是,所述的提取是指:依据关键信息中的“点”、“分”、“秒”字眼进行分割,将“点”之前的认为是时间信息对中的元素H,“点”与“分”之间的认为是时间信息对中的元素M,“分”与“秒”之间的认为是时间信息对中的元素S;当无法找到相应元素,则将时间信息对中的相应元素置为零。
12.根据权利要求4所述的语音关键信息记录方法,其特征是,所述的特殊名词校正是指:将语音识别并分类后的关键信息中的特殊名词信息作为检索词条输出至外部数据库资源,然后利用外部数据库的海量数据资源及其所提供的纠错策略。
13.根据权利要求4所述的语音关键信息记录方法,其特征是,所述的最终确认采用短消息、语音电话和移动网络传输至用户进行反馈确认,确认后的信息保存于用户的终端以作备忘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110243379.5A CN102956231B (zh) | 2011-08-23 | 2011-08-23 | 基于半自动校正的语音关键信息记录装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110243379.5A CN102956231B (zh) | 2011-08-23 | 2011-08-23 | 基于半自动校正的语音关键信息记录装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102956231A true CN102956231A (zh) | 2013-03-06 |
CN102956231B CN102956231B (zh) | 2014-12-31 |
Family
ID=47764963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110243379.5A Expired - Fee Related CN102956231B (zh) | 2011-08-23 | 2011-08-23 | 基于半自动校正的语音关键信息记录装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102956231B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105629747A (zh) * | 2015-09-18 | 2016-06-01 | 宇龙计算机通信科技(深圳)有限公司 | 智能家居系统的语音控制方法及装置 |
CN105824800A (zh) * | 2016-03-15 | 2016-08-03 | 江苏科技大学 | 一种中文真词错误自动校对方法 |
CN105869634A (zh) * | 2016-03-31 | 2016-08-17 | 重庆大学 | 一种基于领域的带反馈语音识别后文本纠错方法及系统 |
CN106205618A (zh) * | 2016-07-08 | 2016-12-07 | 王媛媛 | 语音备忘录装置 |
CN106409295A (zh) * | 2015-07-31 | 2017-02-15 | 腾讯科技(深圳)有限公司 | 从自然语音信息中识别时间信息的方法和装置 |
WO2017088670A1 (zh) * | 2015-11-24 | 2017-06-01 | 珠海赛纳打印科技股份有限公司 | 一种打印控制系统和方法 |
CN108364653A (zh) * | 2018-02-12 | 2018-08-03 | 王磊 | 语音数据处理方法及处理装置 |
CN108847241A (zh) * | 2018-06-07 | 2018-11-20 | 平安科技(深圳)有限公司 | 将会议语音识别为文本的方法、电子设备及存储介质 |
CN109559752A (zh) * | 2017-09-27 | 2019-04-02 | 北京国双科技有限公司 | 语音识别方法和装置 |
CN109559753A (zh) * | 2017-09-27 | 2019-04-02 | 北京国双科技有限公司 | 语音识别方法和装置 |
CN109800219A (zh) * | 2019-01-18 | 2019-05-24 | 广东小天才科技有限公司 | 一种语料清洗的方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5864805A (en) * | 1996-12-20 | 1999-01-26 | International Business Machines Corporation | Method and apparatus for error correction in a continuous dictation system |
CN1293427A (zh) * | 1999-10-19 | 2001-05-02 | 微软公司 | 语音识别模式错误校正系统和方法 |
CN1356628A (zh) * | 2000-07-05 | 2002-07-03 | 国际商业机器公司 | 具有有限或无显示器的设备的语音识别校正 |
US20020177999A1 (en) * | 1999-05-04 | 2002-11-28 | Kerry A. Ortega | Method and apparatus for evaluating the accuracy of a speech recognition system |
CN1764944A (zh) * | 2003-03-26 | 2006-04-26 | 皇家飞利浦电子股份有限公司 | 语音识别系统 |
-
2011
- 2011-08-23 CN CN201110243379.5A patent/CN102956231B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5864805A (en) * | 1996-12-20 | 1999-01-26 | International Business Machines Corporation | Method and apparatus for error correction in a continuous dictation system |
US20020177999A1 (en) * | 1999-05-04 | 2002-11-28 | Kerry A. Ortega | Method and apparatus for evaluating the accuracy of a speech recognition system |
CN1293427A (zh) * | 1999-10-19 | 2001-05-02 | 微软公司 | 语音识别模式错误校正系统和方法 |
CN1356628A (zh) * | 2000-07-05 | 2002-07-03 | 国际商业机器公司 | 具有有限或无显示器的设备的语音识别校正 |
CN1764944A (zh) * | 2003-03-26 | 2006-04-26 | 皇家飞利浦电子股份有限公司 | 语音识别系统 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106409295B (zh) * | 2015-07-31 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 从自然语音信息中识别时间信息的方法和装置 |
CN106409295A (zh) * | 2015-07-31 | 2017-02-15 | 腾讯科技(深圳)有限公司 | 从自然语音信息中识别时间信息的方法和装置 |
CN105629747A (zh) * | 2015-09-18 | 2016-06-01 | 宇龙计算机通信科技(深圳)有限公司 | 智能家居系统的语音控制方法及装置 |
WO2017088670A1 (zh) * | 2015-11-24 | 2017-06-01 | 珠海赛纳打印科技股份有限公司 | 一种打印控制系统和方法 |
CN105824800B (zh) * | 2016-03-15 | 2018-06-26 | 江苏科技大学 | 一种中文真词错误自动校对方法 |
CN105824800A (zh) * | 2016-03-15 | 2016-08-03 | 江苏科技大学 | 一种中文真词错误自动校对方法 |
CN105869634B (zh) * | 2016-03-31 | 2019-11-19 | 重庆大学 | 一种基于领域的带反馈语音识别后文本纠错方法及系统 |
CN105869634A (zh) * | 2016-03-31 | 2016-08-17 | 重庆大学 | 一种基于领域的带反馈语音识别后文本纠错方法及系统 |
CN106205618A (zh) * | 2016-07-08 | 2016-12-07 | 王媛媛 | 语音备忘录装置 |
CN109559752A (zh) * | 2017-09-27 | 2019-04-02 | 北京国双科技有限公司 | 语音识别方法和装置 |
CN109559753A (zh) * | 2017-09-27 | 2019-04-02 | 北京国双科技有限公司 | 语音识别方法和装置 |
CN109559753B (zh) * | 2017-09-27 | 2022-04-12 | 北京国双科技有限公司 | 语音识别方法和装置 |
CN109559752B (zh) * | 2017-09-27 | 2022-04-26 | 北京国双科技有限公司 | 语音识别方法和装置 |
CN108364653A (zh) * | 2018-02-12 | 2018-08-03 | 王磊 | 语音数据处理方法及处理装置 |
CN108847241A (zh) * | 2018-06-07 | 2018-11-20 | 平安科技(深圳)有限公司 | 将会议语音识别为文本的方法、电子设备及存储介质 |
WO2019232991A1 (zh) * | 2018-06-07 | 2019-12-12 | 平安科技(深圳)有限公司 | 将会议语音识别为文本的方法、电子设备及存储介质 |
CN108847241B (zh) * | 2018-06-07 | 2022-09-13 | 平安科技(深圳)有限公司 | 将会议语音识别为文本的方法、电子设备及存储介质 |
CN109800219A (zh) * | 2019-01-18 | 2019-05-24 | 广东小天才科技有限公司 | 一种语料清洗的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102956231B (zh) | 2014-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102956231A (zh) | 基于半自动校正的语音关键信息记录装置及方法 | |
CN110717031B (zh) | 一种智能会议纪要生成方法和系统 | |
JP6909832B2 (ja) | オーディオにおける重要語句を認識するための方法、装置、機器及び媒体 | |
CN105869634B (zh) | 一种基于领域的带反馈语音识别后文本纠错方法及系统 | |
US7587308B2 (en) | Word recognition using ontologies | |
JP5362353B2 (ja) | 文書中のコロケーション誤りを処理すること | |
US11031009B2 (en) | Method for creating a knowledge base of components and their problems from short text utterances | |
EP1814047A1 (en) | Linguistic user interface | |
CN112700769B (zh) | 一种语义理解方法、装置、设备以及计算机可读存储介质 | |
CN102955772B (zh) | 一种基于语义的相似度计算方法和装置 | |
CN114662476B (zh) | 一种融合词典与字符特征的字符序列识别方法 | |
WO2023040493A1 (zh) | 事件检测 | |
CN111695338A (zh) | 基于人工智能的面试内容精炼方法、装置、设备及介质 | |
CN112101003B (zh) | 语句文本的切分方法、装置、设备和计算机可读存储介质 | |
WO2023065633A1 (zh) | 异常语义截断检测方法、装置、设备及介质 | |
CN117707922A (zh) | 测试用例的生成方法、装置、终端设备和可读存储介质 | |
CN106250524A (zh) | 一种基于语义信息的机构名抽取方法和装置 | |
CN108959247A (zh) | 一种数据处理方法、服务器及计算机可读介质 | |
CN114970560A (zh) | 对话意图识别方法、装置、存储介质和智能设备 | |
CN109299471A (zh) | 一种文本匹配的方法、装置及终端 | |
CN118333157B (zh) | 用于hazop知识图谱分析的领域词向量构建方法及系统 | |
CN114817465A (zh) | 一种用于多语言语义理解的实体纠错方法及智能设备 | |
CN112613315B (zh) | 一种文本知识自动抽取方法、装置、设备及存储介质 | |
CN115359799A (zh) | 语音识别方法、训练方法、装置、电子设备及存储介质 | |
CN112257442A (zh) | 一种基于扩充语料库神经网络的政策文件信息提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20141231 Termination date: 20170823 |
|
CF01 | Termination of patent right due to non-payment of annual fee |