CN110377916B - 词预测方法、装置、计算机设备及存储介质 - Google Patents
词预测方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110377916B CN110377916B CN201910740458.3A CN201910740458A CN110377916B CN 110377916 B CN110377916 B CN 110377916B CN 201910740458 A CN201910740458 A CN 201910740458A CN 110377916 B CN110377916 B CN 110377916B
- Authority
- CN
- China
- Prior art keywords
- word
- predicted
- frequency
- possibility
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种词预测方法、装置、计算机设备及存储介质,在该方法中,计算机设备获取用于预测的当前词以及该当前词之前的词序列具有的第一上下文信息;基于当前词及第一上下文信息,确定该当前词之后的待预测词分别属于多个不同领域的概率;针对每个领域,基于该当前词及第一上下文信息,确定词表中各词分别属于该待预测词的第一可能性;依据该待预测词分别属于多个不同领域的概率,以及每个领域对应的词表中各词分别属于待预测词的第一可能性,确定该词表中各词分别属于该待预测词的第二可能性。本申请的方案可以提高预测某个词之后下一个词出现概率的准确度,有利于提高预测语句出现概率的精准度。
Description
本申请是针对2018年08月17日提交的、申请号为201810942238.4,发明名称为“词预测方法、装置、计算机设备及存储介质”的专利申请,所提交的分案申请。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种词预测方法、装置、计算机设备及存储介质。
背景技术
语言模型在语音识别以及机器翻译等多个领域均有广泛应用。语言模型的作用计算出一个句子出现的概率,以便从多个候选句子中,挑选出最符合人类语言的句子。如,以语音识别场景为例,输入语音可能会被识别出多个候选语句,而这些候选语句有些是带有错误词或者语法的,并不符合人类的语言,在该种情况下,就需要利用语言模型来输出各个候选语句合理性的概率。
在语言模型确定一个待预测句子出现概率的过程中,需要将该待预测句子中确定用于预测的当前词,并确定该语言模型的词表中的各个词属于该当前词之后的下一个词(即待预测词)的概率。然而,目前语言模型预测词表中各词属于该当前词之后待预测词的概率的预测准确度普遍偏低,从而使得语言模型确定句子出现概率的准确度较低。
发明内容
有鉴于此,本申请提供了一种词预测方法、装置、计算机设备及存储介质,以提高预测某个词之后下一个词出现概率的准确度。
为实现上述目的,一方面,本申请提供了一种词预测方法,包括:
获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息;
基于所述当前词以及第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;
针对每个所述领域,基于所述当前词及第一上下文信息,确定词表中各词分别属于所述待预测词的第一可能性,所述第一可能性为在所述待预测词属于所述领域的情况下,所述词表中的词属于所述待预测词的可能性;所述词表为预先构建出的包含多个词的集合;
依据所述待预测词分别属于多个不同领域的概率,以及每个领域对应的所述词表中各词分别属于所述待预测词的第一可能性,确定所述词表中各词分别属于所述待预测词的第二可能性。
在一种可能的实现方式中,所述词表为高频词表,所述高频词表由总词表中被使用频率较高的多个词构成,所述总词表为预先构建出的包含多个词的集合,且,总词表中词的总数量多于所述高频词表中词的总数量;
还包括:
基于所述当前词以及第一上下文信息,确定低频词表中各词分别属于所述待预测词的第三可能性,所述低频词表由所述总词表中不属于所述高频词表的多个词构成;
依据所述高频词表中各词分别属于待预测词的第二可能性以及低频词表中各词分别属于所述待预测词的第三可能性,构建出所述总词表中各词分别属于所述待预测词的可能性。
又一方面,本申请还提供了一种词预测装置,包括:
输入获取单元,用于获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息;
领域预测单元,用于基于所述当前词以及第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;
第一预测单元,用于针对每个所述领域,基于所述当前词及第一上下文信息,确定词表中各词分别属于所述待预测词的第一可能性,所述第一可能性为在所述待预测词属于所述领域的情况下,所述词表中的词属于所述待预测词的可能性;所述词表为预先构建出的包含多个词的集合;
第二预测单元,用于依据所述待预测词分别属于多个不同领域的概率,以及每个领域对应的所述词表中各词分别属于所述待预测词的第一可能性,确定所述词表中各词分别属于所述待预测词的第二可能性。
又一方面,本申请还提供了一种计算机设备,包括:
处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息;
基于所述当前词以及第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;
针对每个所述领域,基于所述当前词及第一上下文信息,确定词表中各词分别属于所述待预测词的第一可能性,所述第一可能性为在所述待预测词属于所述领域的情况下,所述词表中的词属于所述待预测词的可能性;所述词表为预先构建出的包含多个词的集合;
依据所述待预测词分别属于多个不同领域的概率,以及每个领域对应的所述词表中各词分别属于所述待预测词的第一可能性,确定所述词表中各词分别属于所述待预测词的第二可能性。
又一方面,本申请还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任一项所述的词预测方法。
可见,在本申请实施例中,在获取到用于预测的当前词之后,会根据当前词以及当前词之间的词序列具有的上下文信息,分析该当前词之后的待预测词(当前词的下一个词)属于多个不同领域的概率,并分别确定在该待预测词属于每个领域的情况下,词表中各词属于该待预测词的可能性。由于待预测词所属领域的不同,会对词表中各个词属于该待预测词的可能性产生影响,因此,结合待预测词属于各个领域的概率,以及在待预测词属于不同领域的情况下词表中各词属于该待预测词的可能性,综合确定词表中各词属于该待预测词的可能性,可以提高预测出的词表中各词属于当前词之后下一个词的准确性,从而有利于提高预测该当前词所属句子出现概率的精准度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本申请中词预测系统的组成结构示意图;
图2示出了本申请实施例中一种词预测方法的一种流程示意图;
图3示出了本申请实施例的一种词预测方法的又一种流程示意图;
图4示出了本申请实施例中实现词预测的一种语言模型的组成示意图;
图5示出了本申请训练语言模型的一种流程示意图;
图6示出了本申请一种词预测方法又一种流程示意图;
图7示出了本申请一种词预测方法又一种流程示意图;
图8示出了本申请所适用的又一种语言模型的组成示意图;
图9示出了本申请的词预测方法所适用的一种应用场景的示意图;
图10示出了本申请的词预测装置的一种组成结构示意图;
图11示出了本申请的词预测装置的又一种组成结构示意图;
图12示出了本申请所适用的一种计算机设备的组成示意图。
具体实施方式
本申请实施例的方案适用于针对一个语句中的当前词,预测词表中各词作为该当前词之后下一个词且能够与该当前词组成语句的可能性,以提高预测当前词之后的下一个词的概率的准确度,进而有利于提高预测由当前词及下一个词组成的句子的出现概率的准确度。
本申请的发明人经研究发现:一个词有可能属于一个或者多个不同领域,如,词A可能是工业领域的词,也可能是农业领域的词,还可能是科技领域的词等等。相应的,当前词之后的下一个词也可能属于某一个或者多个领域,而在该下一个词所属的领域不同时,词表中各词属于该待预测词的概率分布也会有所不同,而现有的语言模型在预测过程中,并未考虑下一个词所属的领域,这样必然导致预测出的词表中各词属于该下一个词的概率分布的精准度较低。
本申请的发明人为了提高预测精度,在预测当前词之后下一个词的过程中,考虑到该下一个词所可能属于的领域,并针对多种领域分别预测词表中各词属于该下一个词的可能性,综合确定出词表中各词属于下一个词的概率分布,使得最终得到的概率分布的精准度较高。
为了便于理解本申请的方案,先对本申请的方案所使用的场景进行介绍。如,参见图1,其示出了本申请的方案所使用的一种词预测系统的一种组成架构示意图。
由图1可以看出,词预测系统可以包括:计算机设备101和数据统计服务器102。
本申请实施例提供的方案涉及人工智能中的语音技术中的语音识别等技术,涉及人工智能中自然语言处理中的机器翻译等技术。
下面对人工智能、语音技术以及自然语言处理进行说明。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
下面结合具体实施例对涉及到的语音技术中的语音识别和自然语言处理中的机器翻译等技术进行说明。
其中,计算机设备101可以获取到基于语音识别、机器翻译或者输入法技术确定出的待预测语句;从待预测语句中确定出当前待分析的当前词,以基于该当前词,预测词表中各词作为该预测语句中该当前词之后下一个词之后的待预测词的可能性。
如,以语音识别领域为例,在基于语音识别将用户输入的语音信号转换为多个候选语句文本之后,为了确定这多个候选语句文本是正确语句的概率,即确定候选语句文本符合人类语言的概率,则对于每个候选语句文本,需要依次将候选语句文本中各词作为当前词,预测词表中各词分别属于该候选语句文本中处于该当前词之后的下一个词的概率。这样,依据组成候选语句文本中词的构成以及预测出的该候选语句文本中各词之后下一个词的概率,来综合确定出该候选语句文本是正确语句的概率。例如,对于候选语句文本“很高兴”,经预测,“高”属于“”很”的下一个词的概率为0.5,而“兴”属于“高”(也可以认为是“很高”)之后下一个词的概率为0.9,则该“很高兴”的出现概率可以为0.45。
对于机器翻译领域,其预测下一个词的应用以及过程与语音识别领域相似。
又如,以输入法领域为例,在输入法领域中,可能需要基于用户已经输入的语句(该语句可以是一个词)中各词,分析用户可能需要输入的多个候选的排序。在该种情况下,就需要将语句中最后一个词作为当前词,预测词表中各词能够与语句中该当前词构成语句的可能性,以便于输入法根据预测结果,选取需要展示出的候选词以及候选词的先后顺序等。
由图1可以看出,计算机设备101中可以部署有语言模型。由图1可以看出,语音识别,机器翻译或者基于输入法确定出待分析语句可以输入给计算机设备102中的语言模型,以基于该语言模型分析出该待分析语句中各词之后下一个词出现的概率,进而基于待分析语句确定出候选语句,或者分析该待分析语句的出现概率(即,该待分析语句符合人类语言的概率)。
其中,该语言模型可以是基于神经网络的语言模型,也可以是其他类型的语言模型,在此不加以限制。
该数据统计服务器可以收集不同用户日常使用的多个词,以将多个词发送给计算机设备,使得计算机设备可以确定词表构成;或者是,基于收集到的用户日常使用的多个词,生成词表并反馈给计算机设备。
可以理解的是,该计算机设备可以为语言识别、机器翻译或者输入法系统中的服务器,也可以是具有数据处理能力的独立设备。
下面结合以上共性,对本申请实施例的一种词预测方法进行介绍,如参见图2,其示出了本申请一种词预测方法一个实施例的流程示意图。本实施例的方法可以应用于本申请的计算机设备,该方法可以包括:
S201,获取用于预测的当前词以及该当前词之前的词序列具有的第一上下文信息。
在本申请实施例将当前用于预测下一个词出现可能性的词称为当前词。考虑到当前词之后下一个词有可能是词表中任意一个词,而本申请需要预测出词表中各词属于该当前词之后且能与当前词组成语句的可能性,因此,本申请将该当前词之后的下一个词称为需要预测的待预测词。
其中,该当前词可以为待预测句子中用于预测的词。其中,该当前词可以由一个字符串组成,例如可以是一个汉字;也可以是由多个字符串组成,例如,由多个汉字组成的词组。相应的,待预测词也可以是由一个或者多个字符串构成。
可以理解的是,在不同应用场景中,获取当前词的方式可能会有所不同。
如,在一种可能的实现方式中,可以是按照待预测语句中各词的先后顺序,从待预测句子中确定当前用于预测的词。在该种情况中,待预测语句本身就是需要预测出现概率的语句,该待预测词语句是由多个词组成,且待预测语句中各词需要依次作为当前词。例如,待预测语句可以是通过语音识别或者机器翻译获得的候选语句,当前词可能是该候选语句中任意位置上的词,不同时刻,当前词是该候选语句中不同位置上的词。
在又一种可能的实现方式中,获取待预测语句中最后一个词作为用于预测的当前词。在该种情况下,通过语言模型可能是需要预测该待预测语句与该当前词之后下一个词组成的候选语句的可能性。如,待预测语句是当前通过输入法输入的待预测语句,当前时刻,该待预测语句可能并不是一句完整的语句,例如,可能仅仅是一个字或者词,也能是多个词构成的不完整语句,而为了预测出该待预测语句中最后一个词之后的下一个词是哪些词以及哪些词的可能性,需要将该待预测语句中最后一个词作为当前词。
可以理解的是,基于待预测语句中的当前词可以直接预测当前词之后的待预测词(下一个词)是哪些词以及这些词各自的可能性。但是,精度会很低。为了保证预测精度,本申请实施例中,预测过程中还会结合当前时刻之前用于预测的词序列对应的上下文信息。
其中,当前词之前的词序列可以待预测语句中该当前词之前的一个或者多个词组成的词序列;该词序列也可以为空。如,如果当前词是第一个用于预测的词,如是待预测语句的第一个词或者待预测语句当前仅仅包括一个词,则当前词之前的词序列为空,在该种情况下,词序列具有的上下文信息也为空。
其中,上下文信息表征的词之间的语义关系,则词序列的上下文关系为词序列中各词之间的语义关系。为了便于区分,本申请实施例将当前词之前的词序列具有的上下文信息称为第一上下文信息。
可选的,该当前词可以词向量表示,该第一上下文信息也可以通过向量表示。
可选的,上下文信息可以是基于自然语言处理中语义理解技术得到的。语义理解技术包括但不限于:词法分析、句法分析、语义分析、语用分析、语境分析、语境推理、情绪分析等技术。
S202,基于该当前词及第一上下文信息,确定该当前词之后的待预测词分别属于多个不同领域的概率。
由本申请的发明人经研究发现可知:当前词之后的待预测词可能属于某一个或者多个领域,而在待预测词所属的不同领域,会影响到词表中各词属于该待预测词的可能性。因此,在本申请实施例中,会基于该当前词以及当前词之前的词序列的第一上下文信息,确定该待预测词属于多个领域的概率。
可以理解的是,基于当前词和该第一上下文信息可以分析该当前词之后的待预测词分别属于各个领域的倾向程度,该倾向程度可以通过概率反映出来。
如,在一种可能的情况中,可以预先分析出不同语义关系与不同领域的映射程度,这样,基于该当前词和第一上下文信息所表征的语义关系,可以得到待预测词与各个领域的映射程度。
在又一种可能的情况中,可以预先训练领域分布模型,该领域分布模型可以利用多个语句样本训练得到。则依据该当前词和该第一上下文信息,并利用该领域分布模型,就可以预测出该当前词的待预测词分别属于多个不同领域的概率。
其中,该领域分布模型可以根据需要设定,如,该领域分布模型可以为循环神经网络模型,例如长短期记忆网络(Long Short-Term Memory,LSTM)模型。
其中,该领域分布模型可以是独立于语言模型的,在该种情况下,利用多个语句样本训练该领域分布模型可以是利用该多个语句样本对预先设定的网络模型进行训练,将训练出该网络模型作为该领域分布模型。如,语句样本中各个词的先后顺序是固定的,基于语句样本中各词的先后顺序以及标注的该语句样本中各词的领域,可以训练网络模型,直至网络模型输出的各个词的领域与实际标注的差异程度符合要求。
可选的,为了提高预测该待预测词属于不同领域的概率的精准度,该领域分布模型可以是语言模型中包括的模型,这样,利用多个语句样本训练语言模型的过程中,可以一并训练出该领域分布模型,该部分内容将会在后面的内容中介绍。
可选的,领域分布模型和语言模型可以是基于人工智能中的机器学习训练得到的。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
如上述提及的领域分布模型和语言模型可以是利用多个语句样本训练网络模型得到的,该网络模型可以为人工神经网络模型。
人工神经网络模型包括但不限于:卷积神经网络模型、循环神经网络模型和深度神经网络模型。
S203,针对每个领域,基于该当前词及第一上下文信息,确定词表中各词分别属于该待预测词的第一可能性。
其中,词表为预先构建出的,包括多个词的集合。词表有时候也会被称为词汇表,或者语料库等等。词表的中词可以是通过大数据分析等,确定出用户日常所可能使用到的词。如,词表中可以包括20万个用户日常可能会使用到的词。
其中,针对每个领域,该第一可能性为在该待预测词属于该领域的情况下,词表中的词属于待预测词的可能性。针对一个领域,词表中一个词的第一可能性也可以认为是,在该词属于该领域的情况下,该词属于该待预测词的可能性。
该第一可能性可以数值、等级等多种方式表示,如,第一可能性可以为数值,那么某个词的第一可能性的取值越大,则该词表中该词属于待预测词的可能性程度越高。
可以理解的是,针对每种领域,由于词表中有多个词,那么会得到该多个词各自对应的第一可能性,每种领域对应一种第一可能性分布。其中,每种领域对应的第一可能性分布实际上就是,在该待预测词属于该领域的情况下,词表中各词属于该待预测词的第一可能性分布。
该第一可能性分布包括了词表中各词分别为待预测词的第一可能性,如,该第一可能性分布可以是一个向量,向量中每个元素指向词表中的一个词,而该元素的具体取值就是该元素所指向的词属于待预测词的第一可能性。
与目前语言模型不考虑领域,而直接预测出词表中各词属于待预测词的一种可能性分布不同,本申请针对待预测词属于该多种不同领域中每个领域的情况,分别预测出词表中各词属于待预测词的可能性。
为了使得语言模型可以针对多种领域,分别预测出词表中各词属于待预测词的第一可能性,在语言模型中可以设置多个预估函数,在利用多个语句样本训练语言模型的过程中,通过训练可以使得不同预估函数对应不同的领域。其中,每个预估函数都是基于当前词以及第一上下文信息来预测出词表中各词属于待预测词的第一可能性,只不过由于每个预估函数所对应的领域不同,使得每个预估函数预测出的词表中各词属于待预测词的第一可能性不会相同,即不同预估函数预测出的第一可能性分布不同。
其中,语言模型可以通过训练不同的网络模型得到,而语言模型所选取的网络模型不同,语言模型中的预估函数也可能会有所不同,如,在语言模型为基于神经网络的语言模型,则预估函数可以是该语言模型中输出层中logits函数,通过logits函数将当前词的词向量以及该第一上下文信息的向量转换为一个维度与词表大小相同的向量,即俗称的输出logtis,logtis函数输出的logtis表示一个事件发生与该事件不发生的比值的对数。相应的,该每个词对应的logtis就是该词对应的第一可能性。
S204,依据该待预测词分别属于多个不同领域的概率,以及每个领域对应的词表中各词分别属于该待预测词的第一可能性,确定该词表中各词分别属于待预测词的第二可能性。
如,将根据待预测词分别属于各个领域的概率,确定各个领域的权重,例如,将待预测词属于一个领域的概率作为该领域的权重,相应的,基于各个领域的权重,对各个领域分别对应的该词表中各词分别属于待预测词的第一可能性进行加权求和,加权求和结果就是词表中各词分别属于待预测词的第二可能性。
举例说明,假设领域包括工业和农业这两个领域,词表中包括3个词为{“球”、“电视”、“出门”、“人”、“游戏”},那么假设待预测词属于工业领域的概率为0.6,属于农业领域的概率为0.4,并通过数值大小来表征第一可能性的大小,假设在待预测词属于工业领域的情况下,该词表中各词分别属于待预测领域的第一可能性分别为:{“球”=1.2、“电视”=1.5、“出门”=0.2};假设在待预测词属于农业领域的情况下,该词表中各词分别属于待预测领域的第一可能性分别为:{“球”=0.8、“电视”=1.6、“出门”=0.4},那么可以通过将工业领域对应的概率0.6与工业领域对应的第一可能性分布相乘,得到第一结果;将农业领域对应的概率与农业领域对应的第一可能性分布相乘,得到第二结果。然后将第一结果与第二结果相加,具体表示如下:
0.6*{“球”=1.2、“电视”=1.5、“出门”=0.2}+0.4*{“球”=0.8、“电视”=1.6、“出门”=0.4}={“球”=0.6*1.2+0.4*0.8=1.04、“电视”=0.6*1.5+0.4*1.6=1.54、“出门”=0.6*0.4=0.24},也就是说,词表中“球”属于待预测词的第二可能性取值为1.04、“电视”属于待预测词的第二可能性取值为1.54、“出门”属于待预测词的第二可能性取值为0.24。
当然,以上仅仅是结合该待预测词属于不同领域的概率以及在待预测词属于不同领域的情况下词表中各词属于待预测词的第一可能性,综合确定各词属于待预测词的第二可能性的一种实现方式,在实际应用中,还可以有其他可能的实现方式,在此不加以限制。
可以理解的是,在第二可能性通过数值表示的情况下,考虑到词表中每个词属于待预测词的第二可能性的数值大小不一,很难直观比较出词表中各词属于待预测词的可能性程度。因此,可选的,还可以对词表中各词分别属于该待预测词的第二可能性进行归一化,以得到词表中各词分别属于该待预测词的概率分布。其中,概率分布包括词表中各词分别属于该待预测词的概率。其中,归一化之后,词表中所有词属于待预测词的概率总和为一。
其中,对词表中各词对应的第二可能性进行归一化的方式可能会有多种,以一种方式为例说明,可以softmax函数来对该词表中各词分别属于待预测词的第二可能性进行处理,以输出归一化后得到的概率分布。如,假设词表中包括C个词,则C个词对应着C个第二可能性,其中,C个词中的第i个词的第二可能性表示为vi,通过softmax函数对C个词中的第i个词的第二可能性vi进行归一化所得的概率Si表示如下:
当然,此处仅仅是以一种归一化的方式为例说明,但是通过其他归一化函数进行归一化也同样适用于本实施例。
由以上可知,在本申请实施例中,在获取到用于预测的当前词之后,会根据当前词以及当前词之前的词序列具有的上下文信息,分析该当前词之后的待预测词(当前词的下一个词)属于多个不同领域的概率,并分别确定在该待预测词属于每个领域的情况下,词表中各词属于该待预测词的可能性。由于待预测词所属领域的不同,会对词表中各个词属于该待预测词的可能性产生影响,因此,结合待预测词属于各个领域的概率,以及在待预测词属于不同领域的情况下词表中各词属于该待预测词的可能性,综合确定词表中各词属于该待预测词的可能性,可以提高预测出的词表中各词属于当前词之后下一个词的准确性,从而有利于提高预测该当前词所属句子出现概率的精准度。
可以理解的是,为了提高预测精准度,在获取到当前词和该第一上下文信息之后,还可以基于该当前词和第一上下文信息,确定用于表征该当前词与当前词之前的词序列之间语义关系的第二上下文信息。该第二上下文信息可以反映出当前词以及当前词之前的词序列组成的语句中各个词以及各个词之间的语义关联关系。
相应的,在以上步骤S202中,可以基于该第二上下文信息,确定该待预测词分别属于不同领域的概率;在步骤S203中,可以依据该第二上下文信息,确定词表中各词分别属于待预测词的第一可能性。
进一步的,在基于下一个该当前词预测时,可以将该第二上下文信息与下一个当前词作为输入信息,输入到语言模型中,从而提高预测精准度。
为了便于理解,以语言模型包括领域分布模型以及多个不同领域各自对应的预估函数为例说明,如,参见图3,其示出了本申请实施例的词预测方法的又一种实现流程示意图,该流程适用于本申请的计算机设备。该流程可以包括:
S301,获取用于预测的当前词的词向量w(t),以及预先训练的语言模型最近一次确定出的第一上下文信息s(t-1)。
其中,词向量也可以称为词嵌入。
可以理解的是,对于语言模型中不同时刻的用于预测的当前词不同,而在语言模型需要基于前后相邻的词之间的语义关系时,该语言模型最近一次确定出的第一上下文信息实际上就是该当前词之前的词序列具有的第一上下文信息。
其中,上下文信息可以通过向量表示。为了便于区分,将当前词之前的词序列具有的第一上下文信息表示为s(t-1),而将后续表示当前词与该当前词之前词序列之间语义关系的第二上下文信息表示为s(t)。
在本实施例中,语言模型包括用于确定当前词之后下一个词所属领域的领域分布模型,以及分别对应多个不同领域的预估函数。在该种情况中,语言模型及语言模型中的领域分布模型和预估函数为通过多个语句样本统一训练得到的。
S302,通过该语言模型将该当前词w(t)和第一上下文信息s(t-1)转换为表征该当前词与当前词之前的词序列之间语义关系的第二上下文信息s(t)。
如,可以按照预设的函数关系将该当前词w(t)和第一上下文信息s(t-1)进行转换,可以得到该第二上下文信息s(t)。
例如,s(t)可以通过如下公式二计算得到:
s(t)=sigmoid(Uw(t)+Ws(t-1)) (公式二);
其中,sigmoid为设定的函数,U和W均为预先设定的向量,其中,U和W可以在训练语言模型过程中确定。
以语言模型为基于循环神经网络的语言模型(Recurrent NeuralNetwork BasedLanguage Model,RNNLM)为例说明。参见图4,其示出了RNNLM这种语言模型的部分组成示意图。
由图4可以看出,该语言模型中输入部分除了包括当前用于预测的当前词的词向量w(t)之外,还会有该语言模型中该当前词对应的隐藏层的上一级隐藏层输出的上一级隐藏层输出向量s(t-1)。其中,s(t-1)实际上就是当前词对之前输入该语言模型的词序列中各词所具有的语义关系。相应的,将该词向量w(t)和上一级隐藏层输出向量s(t-1)输入当前词对应的当前隐藏层,从而得到当前隐藏层输出向量s(t),当前隐藏层输出向量s(t)表征的就是该词向量w(t)表示的当前词与当前词之前的词序列中各词之间的语义关系。
S303,通过语言模型将该第二上下文信息s(t)输入到领域分布模型中,以通过领域分布模型确定当前词之后的待预测词分别属于不同领域的概率。
可选的,该领域分布模型可以为LSTM这种时间递归时间网络模型。该领域分布确定待预测词属于不同领域的概率的具体方式可以参见前面实施例的相关介绍。
S304,将该第二上下文信息s(t)分别输入到各个领域对应的预估函数,并获得每个预估函数输出的第一可能性分布。
其中,该第一可能性分布包括词表中各词分别属于预测词的第一可能性。如,该第一可能性分布可以为一向量,该向量的维度与词表中词个数相同,第一可能性分布的向量中不同维度的取值表示词表中不同词属于待预测词的可能性取值。
需要说明的是,步骤S304和步骤S304的顺序并不限于图3所示,在实际应用中,这两个步骤也可以同时执行;或者,先执行步骤S304再执行步骤S305。
S305,基于各个领域对应的概率以及各个领域对应的预估函数输出的第一可能性分布进行加权求和,得到第二可能性分布。
其中,该第二可能性分布包括该词表中各词分别属于待预测词的第二可能性。
如,假设具有n个领域,相应的会设置有n个预估函数,每个预估函数对应一个领域,假设待预测词属于第i个领域的概率表示为而第i个领域对应的预估函数输出的第一可能分布表示向量,i的取值从到n,则综合确定出的词表中各词属于待预测词的第二可能性分布Pl可以通过如下公式三得到:
为了便于理解,仍以语言模型为RNNLM模型为例,并结合图4进行说明。
由图4可以看出,语言模型中还包括了分布函数模型,且与常规的仅仅设置一个预估函数不同,该语言模型中设置有n个预估函数,n为领域的数量,具体可以根据需要设定,这n个预估函数所对应的领域不同。在图4中预估函数为logtis函数。
由图4可知,在当前词对应的当前隐藏层输出隐藏层输出向量s(t)之后,s(t)不仅会输入到领域分布模型中,还会分别输入到多个预估函数中。
其中,领域分布模型会基于该s(t),分析出当前词之后下一个待预测词分别属于各个领域的概率。在图4中将各个领域对应概率作为后续加权计算的权重,因此,待预测词属于第一个领域的概率表示为权重1,而待预测词属于第二个领域的概率表示为权重2,以此类推,待预测词属于第n个领域的概率表示为权重n。
其中,每个领域对应的logtis函数会输出一个向量logtis。logtis实际上就是未归一化的概率分布,logtis中每个维度表征词表中一个词,不同维度所表示的词不同,相应的,该logtis中每个维度的取值表示在待预测词属于该领域的情况下,该维度表示的词表中的词分别属于该待预测词的可能性程度。在图4中,将第一个领域对应的预估函数输出的logtis表示为logtis1,而将第二个领域的预估函数输出的logtis表示为logtis2,以此类推,将第n个领域的预估函数输出的logtis表示为logtis n。
相应的,为了综合待预测领域分别属于各个领域的概率,以及各领域各自对应的预估函数输出的第一可能性分布logtis,确定出词表中各词分别属于待预测词的第二可能性分布,则需要基于每个领域的权重以及每个领域的预估函数输出的logtis,进行加权求和,得到加权后的logtis。
S306,对第二可能性分布中包括的多个第二可能性进行归一化,得到表征词表中各词分别属于待预测词的概率分布。
可以理解的是,第二可能性分布中各个第二可能性是未经过归一化的概率分布。这样,虽然如果词表中某个词的第二可能性的取值越大,则该词属于待预测词的概率也会越高,但是第二可能性分布并不是常规语言模型最终输出的概率分布,基于该第二可能性分布可能很难直观的看出哪些词属于待预测词的概率高低,因此,作为一种可选方式,还需要对第二可能性分布中的多个第二可能性的取值进行归一化。
如,结合图4说明,在图4中语言模型的输出层除了包括前面提到的多个logtis函数(预估函数)之外,还具有一个softmax函数。其中,该多个领域各自对应的预估函数以及该softmax函数都属于RNNLM这种语言模型的输出层。
由图4可以看出,多个预估函数输出的多个logtis经过加权求和,得到加权求和后的logtis之后,该经过加权后的logtis会输入到该softmax函数中,这样,softmax函数会输出词表中各词属于该待预测词的概率分布。
可以理解的是,针对一个待预测语句,语言模型依次将该待预测语句中各个词作为用于预测的当前词,且,针对每个当前词,语言模型预测出该词表中各词属于当前词之后待预测词的概率分布之后,语言模型还可以依据预测出的各个概率分布,确定该待预测语句的出现概率。或者是,针对一个待预测语句,语言模型预测出该词表中各词属于当前词之后待预测词的概率分布之后,还可以依据该概率分布,确定出词表中各词分别与该待预测语句所组成的候选语句的出现概率。本申请对于确定待预测语句的出现概率或者待预测语句与词表中各词分别组成的候选语句的出现概率的具体实现方式不加以限制。
可以理解的是,在语言模型内设置有该领域分布模型以及多个预估函数的情况下,可以通过多个语句样本来对该语言模型进行训练,而在语言模型训练完成时,该语言模型中的领域分布模型和预估函数也训练完成。在该种情况下,训练语言模型、领域分布模型和预估函数所采用的语句样本是相同的,有利于保证领域分布模型预测出的领域信息与语言模型中预估函数表征的领域信息相匹配,有利于提高预测精准度。与独立于语言模型设置一领域分布模型并独立训练该领域分布模型相比,在语言模型内设置领域分布函数预测词表中各词属于待预测词的概率的准确度更高。
为了便于理解训练该语言模型的过程,下面以一种训练语言模型的方式为例进行介绍,如,参见图5,其示出了训练语言模型的一种实现流程示意图,该流程可以包括:
S501,获取多个用于训练的语句样本。
其中,每个语句样本包括一个或多个词。每个语句样本中各个词的先后顺序是固定的。
S502,针对每个语句样本,将该语句样本输入到语言模型中,得到该语言模型预测出的该语句样本的出现概率。
S503,依据该语言模型预测出的各个语句样本的出现概率,判断该语言模型预测准确度是否达到要求,如果是,则训练完成;如果否,则调整语言模型、语言模型中领域分布函数以及各个预估函数的相关参数,并返回执行步骤S502。
可以理解的是,语句样本都是符合人类语言的语句。对于每个语句样本,语句样本中各个词的位置顺序是固定的,因此,语言模型预测出语句样本的出现概率越高,则说明该预测模型预测的准确度越高。相应的,通过语言模型预测出的各个语句样本的出现概率,可以最终分析出该语言模型预测的准确度。
可以理解的是,在语言模型的预测准确度符合要求的情况下,则说明针对语句样本中的每个当前词,语言模型中领域分布模型预测出的当前词之后的待预测词属于各个领域的概率的准确度也是符合要求的。相应的,语言模型中各个领域对应的预估函数预估出的第一可能性分布也是符合要求的,因此,在语言模型训练完成时,语言模型中的领域分布模型以及预估函数也被训练完成。
需要说明的是,图5仅仅是为了便于理解训练语言模型的过程,而以一种训练语言模型方式进行了简单介绍,但是可以理解的是,在实际应用中,训练语言模型的方式可以有其他可能,对于通过其他方式训练该语言模型的情况也同样适用于本申请。
在以上的词预测方法实施例中,由于词表中词的数量较大,这样,针对多个领域分别预测出词表对应的第一可能性分布(为了便于描述将词表中各词分别属于待预测词的第一可能性称为词表对应的第一可能性分布),以及对预测出的多个第一可能性分布进行加权求和计算,必然需要占用加大的内存,且由于数据处理量大,也会影响到预测速度,导致预测效率相对较低。
为了能够在保证预测精准度的基础上,进一步减少内存占用,并提高预测效率,本申请发明人研究发现:词表中词的数量较大,然而人们常用的词的数量却相对较少,如,词表中可能会达到20万词的级别,但是人们常用到的词可能只有1万到2万左右。基于此,可以将仅仅针对词表中的常用词来分领域预测这些常用词属于待预测词的第一可能性分布,并进行相应的加权求和;而对于剩余的这些不常用词,则可以无需分领域预测,只需直接预测出这些不常用词属于待预测词的可能性。这样,由于不常用词的使用频率较低,相当于仅仅损失了较少的预测精准度,但是却可以大大减少内存占用,并提高预测效率。
基于以上研究发现,本申请还可以将包含全部词的总词表分成两部分,具体按照词被用户使用的使用频率分为两部分,其中,一部分是高频词表,另一部分是低频词表。该总词表为预先构建出的包含多个词的词表,且总词表中的词的总数量多于高频词表中词的总数量,当然,总词表中词的总数量也多于低频词表的词的总数量。在该种情况下,该总词表相当于前面实施例的词表。其中,该高频词表由总词表中被使用频率较高的多个词构成,如,按照词的使用频率从高到低排序,将总词表中使用频率排序处于前指定位的词作为高频词表中的词。相应的,低频词表由所述总词表中不属于高频词表的多个词构成。可见,低频词表中的词的使用频率低于高频词表中的词的使用频率。其中,可以通过数据统计分析,确定用户对于各个词的使用次数等,最终得到各个词的使用频率。
相应的,可以针对高频词表中的词和低频词表中的词进行不同的处理。如,参见图6,其示出了本申请一种词预测方法的又一流程示意图。本实施例的方法可以应用于本申请的计算机设备,该方法可以包括:
S601,获取用于预测的当前词以及该当前词之前的词序列具有的第一上下文信息。
S602,基于该当前词及第一上下文信息,确定该当前词之后的待预测词分别属于多个不同领域的概率。
以上步骤S601和S602可以参见前面实施例的相关介绍,在此不再赘述。
S603,针对每个领域,基于该当前词及第一上下文信息,确定高频词表中各词分别属于该待预测词的第一可能性。
其中,针对每个领域,该第一可能性为在该待预测词属于该领域的情况下,高频词表中的词属于待预测词的可能性。
为了便于区分,高频词表中的词可以称为高频词,低频词表中的各词可以称为低频词。可以理解的是,在本申请实施例中仅仅针对高频词表,在待预测词属于每个领域的情况下,预测该高频词表中各个高频词属于待预测词的第一可能性。这样,需要分领域计算第一可能性的高频词的数量相对较少,有利于减少内存占用,降低数据处理量,提高数据处理效率。
其中,高频词表与前面实施例中词表的区别仅仅在于词的数量多少,而预测高频词表中各词属于待预测词的第一可能性的过程与前面实施例中词表中各词属于待预测词的第一可能性的过程相同,具体可以参见前面实施例的相关介绍,在此不再赘述。
与前面实施例相似,可选的,在该步骤S601之后,还可以基于该当前词和第一上下文信息,确定用于表征该当前词与该当前词之前的词序列之间语义关系的第二上下文信息。相应的,可以基于该第二上下文信息,确定高频词表中各词分别属于该待预测词的第一可能性。
S604,依据该待预测词分别属于多个不同领域的概率,以及每个领域对应的高频词表中各词分别属于该待预测词的第一可能性,确定该高频词表中各词分别属于待预测词的第二可能性。
由于高频词表中词的数量较少,因此,计算出的高频词表中各高频词对应的第一可能性的数量较少,即包含高频词表中各高频词对应的第一可能性的第一可能性分布的数量较少,因此,确定该高频词表中各词分别属于待预测词的第二可能性过程中,所需处理的数据量也会相对较少,有利于减少内存占用,并提高处理效率。
S605,基于该当前词以及第一上下文信息,确定低频词表中各词分别属于该待预测词的第三可能性。
其中,为了便于区分,将低频词表中的词属于待预测词的可能性称为第三可能性。
可以理解的是,虽然低频词表中各个词的使用频率相对较低,但是低频词表中各词也有可能是待预测语句中的词或者是与待预测语句组成新语句的词。
举例说明,以语音识别出的候选语句为“一飞翀昊苍”为例。为了预测该候选语句的出现概率,需要分别预测该候选语句中每个词位于该词之前词序列的概率。其中,就需要预测“翀”是“飞”之后下一个词的概率,而“翀”属于低频词表中词,因此,只有依据该“飞”以及“一”对应的上下文信息,分别预测低频词表中各词分别属于待预测词的可能性(即第三可能性),才可以获取到“翀”属于“飞”之后下一个词的概率。
其中,确定低频词表中各词各自对应的第三可能性的方式实际上是未考虑当前词之后下一个词属于的领域,而直接基于当前词和第一上下文信息,确定低频词中各词属于待预测词的可能性。
S606,依据该高频词表中各词分别属于待预测词的第二可能性以及低频词表中各词分别属于该待预测词的第三可能性,构建出该总词表中各词分别属于该待预测词的可能性。
可以理解的是,总词表的维度是高频词表中词数量与该低频词表中词数量之和,而高频词表与低频词表中的词不存在重合,因此,将高频词表中各词属于待预测词第二可能性与该低频词表中各词属于该待预测词的第三可能性组合,从而可以构建出包含高频词表以及低频词表中各词属于待预测词的可能性,也就是得到了总词表中各词分别属于待预测词的可能性。
如,假设高频词表中包括词1和词2,同时假设词1属于待预测词的第二可能性表示可能性1,词2属于待预测词的第二可能性为可能性2;而假设低频词表包括词3、词4、词5、词6和词7,假设词3、词4、词5、词6和词7分别属于待预测词的第三可能性依次为:可能性3、可能性4、可能性5、可能性6和可能性7。则将这两部分组合,得到总词表中各词属于待预测词的可能性可以包括:词1:可能性1;词2:可能性2;词3:可能性3;词4:可能性4;词5:可能性5;词6:可能性6;词7:可能性7。
S607,对总词表中各词分别属于待预测词的可能性进行归一化,得到总词表中各词分别属于待预测词的概率分布。
其中,该步骤S607为可选步骤,其目的是通过对总词表中各词属于待预测词的可能性进行归一化,来得到总词表中各词属于待预测词的概率分布,从而直观了解到词表中不同词属于该待预测词的可能性程度的大小。
与前面实施例相似,在总词表分别高频词表和低频词表的情况下,语言模型也可以包括领域分布模型以及多个领域分别对应预估函数。不同之处在于,该语言模型中多个领域对应的预估函数是针对高频词表中的词进行可能性预测,而且,该语言模型中还包括与低频词表对应的预估函数,而该低频词表对应的预估函数是针对低频词表中的词进行可能性预测。具体的,可以参见图7,其示出了本申请一种词预测方法的又一种流程示意图,本实施例适用于本申请的计算机设备,该流程可以包括:
S701,获取用于预测的当前词的词向量w(t),以及预先训练的语言模型最近一次确定出的第一上下文信息s(t-1)。
S702,通过该语言模型将该当前词w(t)和第一上下文信息s(t-1)转换为表征该当前词与当前词之前的词序列之间语义关系的第二上下文信息s(t)。
S703,通过语言模型将该第二上下文信息s(t)输入到领域分布模型中,以通过领域分布模型确定当前词之后的待预测词分别属于不同领域的概率。
以上步骤S701到S703可以参见前面实施例的相关介绍,在此不再赘述
S704,通过语言模型将该第二上下文信息s(t)分别输入到各个领域对应的高频预估函数,并获得每个高频预估函数输出的第一可能性分布。
其中,该第一可能性分布包括高频词表中各词分别属于预测词的第一可能性。如,该第一可能性分布可以为一向量,该向量的维度与高频词表中词个数相同,第一可能性分布的向量中不同维度的取值表示高频词表中不同词属于待预测词的可能性取值。
其中,考虑到各个领域对应的预估函数仅仅针对高频词表中的词进行可能性预测,因此,为了便于与低频词表对应的预估函数区分,将每个领域对应的预估函数均称为高频预估函数,而将低频词表对应的预估函数称为低频预估函数。
S705,基于各个领域对应的概率以及各个领域对应的高频预估函数输出的第一可能性分布进行加权求和,得到第二可能性分布。
其中,该第二可能性分布包括该高频词表中各词分别属于待预测词的第二可能性。
为了便于理解,仍以语言模型为RNNLM模型为例,并结合图8进行说明。由图8可以看出,语言模型中包括分布函数模型,和n个不同领域对应的n个高频预估函数。n为领域的数量。在图8中所有预估函数均假设为logtis函数,所以可将高频预估函数描述为高频logtis函数。
由图8可知,确定当前隐藏层输出隐藏层输出向量s(t)的过程与图4相同。在得到s(t)之后,s(t)会输入到领域分布模型中,还会分别输入到各个高频预估函数中。
与图4相似,在图8中,将各个领域对应概率记为权重,相应的,待预测词属于第一个领域的概率表示为权重1,待预测词属于第二个领域的概率表示为权重2,以此类推,待预测词属于第n个领域的概率表示为权重n。
相应的,每个领域对应的高频logtis函数会输出一个向量logtis。将第一个领域对应的高频预估函数输出的logtis表示为logtis1,而将第二个领域对应的高频预估函数输出的logtis表示为logtis2,以此类推,将第n个领域的高频预估函数输出的logtis表示为logtis n。
进一步,基于每个领域的权重以及每个领域的高频预估函数输出的logtis,进行加权求和,得到加权后的高频logtis,该高频logtis表示高频词表中各词属于待预测词的第二可能性分布。
S706,通过语言模型将该第二上下文信息s(t)输入到低频词表对应的低频预估函数,并获得低频预估函数输出的第三可能性分布。
其中,该第三可能性分布包括低频词表中的各词分别属于待预测词的可能性。
如图8,语言模型除了包括分布函数模型和n个不同领域对应的n个高频预估函数之外,还包括用于预测低频词表中各词属于待预测词的可能性的预估函数,即低频预估函数。
相应的,隐藏层输出的s(t)还会被输入到该低频预估函数中,该低频预估函数中基于该s(t),预测低频词表中各词属于待预测词的可能性logtis,为了便于区分,将低频预估函数输出的logtis表示为低频logtis。
可选的,考虑到低频词表中词的数量较大,因此,如果直接利用预估函数计算低频词表中各词分别属于待预测词的可能性,那么该预估函数需要输出一个维度较大的向量,这样,会影响到预估函数的计算效率。为了提高预估函数的计算效率,可以对低频词表进行降维,因此,可以将低频词表中的多个词分为m个组,m为大于或者等于2的自然数,具体可以根据需要设定。其中,每个组包括多个词,且每个组中各个词的使用频率的总和相等。
相应的,在隐藏层与低频词表对应的低频预估函数之间还分别设置有m个降维矩阵(在图8中未示出),每个降维矩阵对应一个组。
以一个组为例说明,隐藏层输出第二上下文信息s(t)之后,s(t)会经过该组对应的降维矩阵,以降低s(t)的维度。然后,语言模型将降维后的s(t)输入到低频预估函数中,该低频预估函数会基于该降维后的s(t),预测该组内的多个低频词分别属于待预测词的可能性,得到该组对应的可能性分布,该可能性分布对应的向量维度与降维后的s(t)的维度相同。
如,低频词表划分出的第i个组输出的可能性分布logtisi可以表示如下:
logitsi=(projis(t)+biaspi)×taili+biasi (公式四);
其中,i为从1到m的自然数。proji为第i个组对应的降维矩阵。tiali表示第i个组中各个词的向量;biaspi为预置的第一偏置向量;biasi为预置的第二偏置向量。
以上是以一个组为例说明,对于每个组均需要按照如上方式操作,其中,由不同组中词的数量不同,因此,不同组对应的降维矩阵的维度也会所有不同,但是最终各个组的可能性分布的向量维数均相同。如,假设S(t)为1024位,并假设一个组1中包括1万个词,而组2中包括2万个词,则该组1对应的降维矩阵可以为512维,相应的,该组1对应的可能性分布的向量维数为512维;而组2对应的降维矩阵可以为216位,则组2对应的可能性愤怒的向量维数也是512维。
相应的,基于各个组对应的可能性分布的向量,可以构建出用于表征所有组中各个词分别属于待预测词的可能性分布。
S707,基于该高频词表对应的第二可能性以及低频词表对应的第三可能性,构建出表征该总词表中各词分别属于该待预测词的总可能性分布。
其中,该总可能性分布包括总词表中各词分别属于该待预测词的可能性。
由图8可知,低频logtis的维数和高频logtis的维数不同,低频logtis和高频logtis都仅仅能表征总词表中部分词属于待预测词的可能性。因此,将低频logtis的维数和高频logtis组合成为一个维数与总词表中词数量相同的向量实际上就是构建出一个logtis,以表征总词表中各个词分别属于该待预测词可能性,为了区分,将构建出的logtis称为总logtis。
S708,对总可能性分布中包括的多个词对应的可能性进行归一化,得到表征总词表中各词分别属于待预测词的概率分布。
如图8所示,将用于表征总词表中各词分别属于该待预测词的可能性的总logtis输入到softmax函数。相应的,softmax函数输出的概率分布就包括了总词表各个词属于该待预测词的概率。
为了便于理解本申请的方案,对本申请实施例所适用的一种应用场景进行介绍。如图9,其示出了本申请的词预测方法所适用的一种应用场景的组成示意图。
在图9中以应用场景为语言识别场景为例。如,由图9可以看出,该场景中包括语音识别系统,语音识别系统包括:计算机设备901、数据统计服务器902和语音识别服务器903。
其中,计算机设备可以为语音识别系统中用于分析候选语句出现概率的服务器,该计算机设备中可以预置有本申请以上任意一个实施例提到的语言模型。
该数据统计服务器可以为计算机设备确定词表提供依据。
可以理解的是,在图9中是语音识别服务器与具有语言模型的计算机设备为两台独立的设备为例说明,但是可以理解的是,在实际应用中,计算机设备和语音识别服务器也可以为同一台设备。
由图9可以看出,用户终端904可以将如用户输入的待识别的语音发送给语音识别服务器903,如步骤S91所示。
而语音识别服务器903可以转换出该待识别的语音所可能对应的多个候选语句文本。而为了确定这多个候选语句文本哪些才是符合人类语言的符合度较高的语句文本,也就是哪些候选语句是基于语音识别出的准确度相对较高的语句文本,则语音服务器会将基于待识别语音转换出的多个候选语句文本发送给该计算机设备901,如图9中步骤S92所示。
相应的,该计算机设备901会按照前面实施例介绍的方案,针对每个候选语句文本,依次将该候选语句文本中各个词分别作为当前词,并预测词表中各个词属于该当前词的待预测词的概率分布。然后,基于预测出的概率分布,并结合候选语句文本中各个词,可以分析出候选语句文本的出现概率,如步骤S93所示。
然后,计算机设备901将预测出的各个候选语句文本的出现概率发送给该语音识别服务器903,如步骤S94所示。
而语音识别服务器903按照这些候选语句文本出现概率从高到低的顺序对候选语句文本排序,并将排序后的候选语句文本返回给用户终端,以有利于用户快速选择该语音对应的语句文本,如步骤S95所示。
可以理解的是,图9仅仅是一种应用场景为例说明,但是可以理解的是,本申请实施例的方案所适用的应用场景可以有多种可能,本申请对此不加以限制。
另一方面,本申请还提供了一种词预测装置。如,参见图10,其示出了本申请一种词预测装置一个实施例的组成结构示意图,本申请的词预测装置适用于本申请的计算机设备,该装置可以包括:
输入获取单元1001,用于获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息;
领域预测单元1002,用于基于所述当前词以及第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;
第一预测单元1003,用于针对每个所述领域,基于所述当前词及所述第一上下文信息,确定词表中各词分别属于所述待预测词的第一可能性,所述第一可能性为在所述待预测词属于所述领域的情况下,所述词表中的词属于所述待预测词的可能性;所述词表为预先构建出的包含多个词的集合;
第二预测单元1004,用于依据所述待预测词分别属于多个不同领域的概率,以及每个领域对应的所述词表中各词分别属于所述待预测词的第一可能性,确定所述词表中各词分别属于所述待预测词的第二可能性。
可选的,该词预测装置还可以包括:
归一化单元,用于在所述第二预测单元确定所述词表中各词分别属于所述待预测词的第二可能性之后,对所述词表中各词分别属于所述待预测词的第二可能性进行归一化,得到所述词表中各词分别属于所述待预测词的概率分布。
可选的,为了减少预测中的内存占用,提高预测效率,本申请词预测装置中,该第一预测单元和第二预测单元中的所述词表为高频词表,所述高频词表由总词表中被使用频率较高的多个词构成。在该种情况下,可以参见图11,其示出了本申请一种词预测装置又一个实施例的组成结构示意图,本实施例的装置与前面实施例装置的不同之处在于,该装置还可以包括:
第三预测单元1005,用于基于所述当前词以及第一上下文信息,确定低频词表中各词分别属于所述待预测词的第三可能性,所述低频词表由所述总词表中不属于所述高频词表的多个词构成,所述总词表为预先构建出的包含多个词的集合,且,总词表中词的总数量多于所述高频词表中词的总数量;
预测结合单元1006,用于依据所述高频词表中各词分别属于待预测词的第二可能性以及低频词表中各词分别属于所述待预测词的第三可能性,构建出所述总词表中各词分别属于所述待预测词的可能性。
可选的,在以上装置的实施例中,该装置还可以包括:
上下文转换单元,用于在所述输入获取单元获取所述当前词以及所述第一上下文信息之后,基于所述当前词和所述第一上下文信息,确定用于表征所述当前词与所述当前词之前的词序列之间语义关系的第二上下文信息;
所述领域预测单元,具体用于,基于所述第二上文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;
所述第一预测单元,具体为,用于针对每个所述领域,基于所述第二上下文信息,确定词表中各词分别属于所述待预测词的第一可能性。
进一步的,所述领域预测单元,包括:
领域预测子单元,用于利用预先训练的领域分布模型,确定所述当前词之后的待预测词分别属于多个不同领域的概率,所述领域分布模型为基于多个语句样本训练得到的。
在一种实现方式中,所述输入获取单元,可以包括:
输入获取子单元,用于获取用于预测的当前词的词向量,以及预先训练的语言模型最近一次确定出的第一上下文信息,所述语言模型包括所述领域分布模型以及所述多个不同领域各自对应的预估函数,其中,所述语言模型及所述语言模型中的所述领域分布模型和所述预估函数为通过多个语句样本统一训练得到的;
相应的,所述第一预测单元,包括:
第一预测子单元,用于将所述第二上下文信息分别输入到各个领域对应的预估函数,并获得每个预估函数输出的第一可能性分布,所述第一可能性分布包括词表中各词分别属于所述预测词的第一可能性。
可选的,第二预测单元,具体用于,基于各个领域对应的概率以及各个领域对应的预估函数输出的第一可能性分布进行加权求和,得到第二可能性分布,所述第二可能性分布包括所述词表中各词分别属于所述待预测词的第二可能性。
为了便于理解,参见图12,其示出了本申请实施例中计算机设备的一种组成结构示意图。在图7中,该计算机设备1200可以包括:处理器1201、存储器1202、通信接口1203、输入单元1204和显示器1205和通信总线1206。
处理器1201、存储器1202、通信接口1203、输入单元1204、显示器1205、均通过通信总线1206完成相互间的通信。
在本申请实施例中,该处理器1201,可以为中央处理器(CentralProcessingUnit,CPU),特定应用集成电路(application-specific integrated circuit,ASIC),数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。
该处理器可以调用存储器1202中存储的程序,具体的,可以处理器可以执行以上图1以及图9中计算机设备侧所执行的操作。
存储器1202中用于存放一个或者一个以上程序,程序可以包括程序代码,所述程序代码包括计算机操作指令,在本申请实施例中,该存储器中至少存储有用于实现以下功能的程序:
获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息;
基于所述当前词以及第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;
针对每个所述领域,基于所述当前词及所述第一上下文信息,确定词表中各词分别属于所述待预测词的第一可能性,所述第一可能性为在所述待预测词属于所述领域的情况下,所述词表中的词属于所述待预测词的可能性;所述词表为预先构建出的包含多个词的集合;
依据所述待预测词分别属于多个不同领域的概率,以及每个领域对应的所述词表中各词分别属于所述待预测词的第一可能性,确定所述词表中各词分别属于所述待预测词的第二可能性。
在一种可能的实现方式中,该存储器1202可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、以及至少一个功能(比如声音播放功能、图像播放功能等)所需的应用程序等;存储数据区可存储根据计算机的使用过程中所创建的数据。
此外,存储器1202可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
该通信接口1203可以为通信模块的接口,如GSM模块的接口。
本申请还可以包括显示器1204和输入单元1205,该显示器1204包括显示面板,如触摸显示面板等;该输入单元可以触摸感应单元、键盘等等。
当然,图12所示的计算机设备结构并不构成对本申请实施例中计算机设备的限定,在实际应用中计算机设备可以包括比图12所示的更多或更少的部件,或者组合某些部件。
另一方面,本申请还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任一项实施例中所描述的词预测方法。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的词预测方法、装置、计算机设备可以应用于上述智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等任意领域。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种词预测方法,其特征在于,包括:
获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息;
基于所述当前词以及所述第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;
针对每个所述领域,基于所述当前词及第一上下文信息,确定高频词表中各词分别属于所述待预测词的第一可能性,具体包括:将第二上下文信息分别输入到各个领域对应的预先训练的高频预估函数中,并获得每个高频预估函数输出的第一可能性分布,所述第一可能性分布包括所述高频词表中各词分别属于所述预测词的第一可能性;每个高频预估函数为通过多个语句样本训练得到的;所述第二上下文信息是基于所述当前词与所述第一上下文信息确定得到的,且用于表征所述当前词与所述当前词之前的词序列之间语义关系;所述第一可能性为在所述待预测词属于所述领域的情况下,所述高频词表中的词属于所述待预测词的可能性;所述高频词表由总词表中使用频率排序处于前指定位的词构成;所述总词表为预先构建出的包含多个词的集合,且,所述总词表中词的总数量多于所述高频词表中词的总数量;
依据所述待预测词分别属于多个不同领域的概率,以及每个领域对应的所述高频词表中各词分别属于所述待预测词的第一可能性,确定所述高频词表中各词分别属于所述待预测词的第二可能性,具体包括:基于各个领域对应的概率以及各个领域对应的高频预估函数输出的第一可能性分布进行加权求和,得到第二可能性分布;所述第二可能性分布包括所述高频词表中各词分别属于所述待预测词的第二可能性;
基于所述当前词以及所述第一上下文信息,确定低频词表中各词分别属于所述待预测词的第三可能性,具体包括:将所述第二上下文信息输入到预先训练的低频预估函数,并获得所述低频预估函数输出的第三可能性分布;所述第三可能性分布包括所述低频词表中的各词分别属于待预测词的第三可能性;所述低频预估函数为通过多个语句样本训练得到的;所述低频词表由所述总词表中不属于所述高频词表的多个词构成;
依据所述高频词表中各词分别属于所述待预测词的第二可能性以及所述低频词表中各词分别属于所述待预测词的第三可能性,构建出所述总词表中各词分别属于所述待预测词的可能性;
对所述总词表中各词分别属于所述待预测词的可能性进行归一化,得到所述总词表中各词分别属于所述待预测词的概率分布。
2.根据权利要求1所述的词预测方法,其特征在于,获取所述当前词之前的词序列具有的第一上下文信息包括:
基于预先训练的语言模型,获取所述语言模型最近一次确定出的所述第一上下文信息,所述语言模型为通过多个语句样本训练得到的。
3.根据权利要求2所述词预测方法,其特征在于,所述基于所述当前词以及第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率包括:
通过所述语言模型将所述当前词和所述第一上下文信息转换为表征所述当前词与所述当前词之前的词序列之间语义关系的第二上下文信息;
将所述第二上下文信息输入到预先训练的领域分布模型中,以通过所述领域分布模型确定所述待预测词分别属于不同领域的概率,所述领域分布模型为基于多个语句样本训练得到的。
4.根据权利要求3所述词预测方法,其特征在于,所述通过所述语言模型将所述当前词和所述第一上下文信息转换为表征所述当前词与所述当前词之前的词序列之间语义关系的第二上下文信息包括:
获取所述语言模型中所述当前词对应的当前隐藏层的上一级隐藏层输出的所述第一上下文信息;
将所述第一上下文信息以及所述当前词输入至所述当前隐藏层,得到所述当前隐藏层输出的所述第二上下文信息。
5.根据权利要求1所述词预测方法,其特征在于,所述低频词表包括m组子低频词表,其中,每组子低频词表由所述低频词表中的多个词构成,每组子低频词表中各个词的使用频率的总和相等,m为大于或等于2的自然数;
所述将所述第二上下文信息输入到预先训练的低频预估函数,并获得所述低频预估函数输出的第三可能性分布包括:
针对每组子低频词表,将所述第二上下文信息输入到该组子低频词表对应的预先设置的降维矩阵,得到降维后的第二上下文信息;其中,一组子低频词表对应一个降维矩阵;
将降维后的第二上下文信息输入到所述低频预估函数,得到所述低频预估函数输出的该组子低频词表中各词分别属于所述待预测词的第三可能性,得到该组子低频词表对应的第三可能性分布,以得到各组子低频词表中各词分别对应的第三可能性分布。
6.根据权利要求1所述词预测方法,其特征在于,所述获取用于预测的当前词包括:
获取待识别的语音或待翻译的文本对应的至少一个候选语句文本;
针对每一候选语句文本,依次将该候选语句文本中各词作为所述当前词;
所述词预测方法还包括:
针对每一候选语句文本,依据该候选语句文本中各词之后下一个词对应的概率分布,获得该候选语句文本为正确语句的概率,以得到所述至少一个候选语句文本分别对应的概率。
7.根据权利要求6所述词预测方法,其特征在于,还包括:
将所述至少一个候选语句文本分别对应的概率,按照从高到低进行排序;
展示排序后的所述至少一个候选语句文本。
8.根据权利要求1所述词预测方法,其特征在于,所述获取用于预测的当前词包括:
将已经输入语句中的最后一个词作为所述当前词;
所述词预测方法还包括:
依据所述总词表中各词分别属于所述当前词之后的待预测词的概率分布,从所述总词表中筛选出待展示的至少一个候选词,以及,确定出所述至少一个候选词展示的先后顺序。
9.一种语音识别系统,其特征在于,包括:
语音识别服务器,用于获取用户终端输入的待识别的语音对应的多个候选语句文本;
计算机设备,用于接收多个所述候选语句文本;
针对每一候选语句文本,依次将该候选语句文本中各词作为用于预测的当前词;
针对每一当前词,获取所述当前词以及所述当前词之前的词序列具有的第一上下文信息;
基于所述当前词以及所述第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;
针对每个所述领域,基于所述当前词及第一上下文信息,确定高频词表中各词分别属于所述待预测词的第一可能性,具体包括:将第二上下文信息分别输入到各个领域对应的预先训练的高频预估函数中,并获得每个高频预估函数输出的第一可能性分布,所述第一可能性分布包括所述高频词表中各词分别属于所述预测词的第一可能性;每个高频预估函数为通过多个语句样本训练得到的;所述第二上下文信息是基于所述当前词与所述第一上下文信息确定得到的,且用于表征所述当前词与所述当前词之前的词序列之间语义关系;所述第一可能性为在所述待预测词属于所述领域的情况下,所述高频词表中的词属于所述待预测词的可能性;所述高频词表由总词表中使用频率排序处于前指定位的词构成;所述总词表为预先构建出的包含多个词的集合,且,所述总词表中词的总数量多于所述高频词表中词的总数量;
依据所述待预测词分别属于多个不同领域的概率,以及每个领域对应的所述高频词表中各词分别属于所述待预测词的第一可能性,确定所述高频词表中各词分别属于所述待预测词的第二可能性,具体包括:基于各个领域对应的概率以及各个领域对应的高频预估函数输出的第一可能性分布进行加权求和,得到第二可能性分布;所述第二可能性分布包括所述高频词表中各词分别属于所述待预测词的第二可能性;
基于所述当前词以及所述第一上下文信息,确定低频词表中各词分别属于所述待预测词的第三可能性,具体包括:将所述第二上下文信息输入到预先训练的低频预估函数,并获得所述低频预估函数输出的第三可能性分布;所述第三可能性分布包括所述低频词表中的各词分别属于待预测词的第三可能性;所述低频预估函数为通过多个语句样本训练得到的;所述低频词表由所述总词表中不属于所述高频词表的多个词构成;
依据所述高频词表中各词分别属于所述待预测词的第二可能性以及所述低频词表中各词分别属于所述待预测词的第三可能性,构建出所述总词表中各词分别属于所述待预测词的可能性;
对所述总词表中各词分别属于所述待预测词的可能性进行归一化,得到所述总词表中各词分别属于所述待预测词的概率分布;以得到该候选语句文本中各词之后下一个词对应的概率分布;
依据该候选语句文本中各词之后下一个词对应的概率分布,获得该候选语句文本为正确语句的概率,以得到多个所述候选语句文本分别对应的概率;
所述语音识别服务器,还用于将多个所述候选语句文本分别对应的概率,按照从高到低进行排序,将排序后的多个所述候选语句文本反馈至所述用户终端。
10.根据权利要求9所述语音识别系统,其特征在于,还包括:
数据统计服务器,用于获取不同用户使用的多个词;所述计算机设备,还用于接收所述数据统计服务器发送的不同用户使用的多个词;基于不同用户使用的多个词,确定所述总词表;
或,
数据统计服务器,用于获取不同用户使用的多个词;基于不同用户使用的多个词,确定所述总词表;将所述总词表发送至所述计算机设备。
11.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上权利要求1-8任一项所述的词预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910740458.3A CN110377916B (zh) | 2018-08-17 | 2018-08-17 | 词预测方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910740458.3A CN110377916B (zh) | 2018-08-17 | 2018-08-17 | 词预测方法、装置、计算机设备及存储介质 |
CN201810942238.4A CN109117480B (zh) | 2018-08-17 | 2018-08-17 | 词预测方法、装置、计算机设备及存储介质 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810942238.4A Division CN109117480B (zh) | 2018-08-17 | 2018-08-17 | 词预测方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110377916A CN110377916A (zh) | 2019-10-25 |
CN110377916B true CN110377916B (zh) | 2022-12-16 |
Family
ID=64852831
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810942238.4A Active CN109117480B (zh) | 2018-08-17 | 2018-08-17 | 词预测方法、装置、计算机设备及存储介质 |
CN201910740458.3A Active CN110377916B (zh) | 2018-08-17 | 2018-08-17 | 词预测方法、装置、计算机设备及存储介质 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810942238.4A Active CN109117480B (zh) | 2018-08-17 | 2018-08-17 | 词预测方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN109117480B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444710B (zh) * | 2019-01-15 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 分词方法及分词装置 |
CN111783431B (zh) * | 2019-04-02 | 2024-05-24 | 北京地平线机器人技术研发有限公司 | 利用语言模型预测词出现概率及语言模型训练方法和装置 |
CN110032644A (zh) * | 2019-04-03 | 2019-07-19 | 人立方智能科技有限公司 | 语言模型预训练方法 |
CN110222578B (zh) * | 2019-05-08 | 2022-12-27 | 腾讯科技(深圳)有限公司 | 对抗测试看图说话系统的方法和装置 |
CN110765239B (zh) * | 2019-10-29 | 2023-03-28 | 腾讯科技(深圳)有限公司 | 热词识别方法、装置及存储介质 |
CN113302683B (zh) * | 2019-12-24 | 2023-08-04 | 深圳市优必选科技股份有限公司 | 多音字预测方法及消歧方法、装置、设备及计算机可读存储介质 |
CN111680519B (zh) * | 2020-04-28 | 2023-04-07 | 平安科技(深圳)有限公司 | 基于降维桶模型的文本翻译方法及装置 |
CN111639160A (zh) * | 2020-05-29 | 2020-09-08 | 达闼机器人有限公司 | 领域识别的方法、交互的方法、电子设备及存储介质 |
CN113051936A (zh) * | 2021-03-16 | 2021-06-29 | 昆明理工大学 | 一种基于低频词表示增强的汉越神经机器翻译的方法 |
CN113221870B (zh) * | 2021-05-28 | 2024-05-24 | 北京有竹居网络技术有限公司 | 一种用于移动终端的ocr识别方法、装置、存储介质及设备 |
CN114942986B (zh) * | 2022-06-21 | 2024-03-19 | 平安科技(深圳)有限公司 | 文本生成方法、装置、计算机设备及计算机可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645066A (zh) * | 2008-08-05 | 2010-02-10 | 北京大学 | 一种互联网新颖词监测方法 |
CN103544246A (zh) * | 2013-10-10 | 2014-01-29 | 清华大学 | 互联网多种情感词典构建方法及系统 |
CN103870001A (zh) * | 2012-12-11 | 2014-06-18 | 百度国际科技(深圳)有限公司 | 一种生成输入法候选项的方法及电子装置 |
CN103869999A (zh) * | 2012-12-11 | 2014-06-18 | 百度国际科技(深圳)有限公司 | 对输入法所产生的候选项进行排序的方法及装置 |
CN105550173A (zh) * | 2016-02-06 | 2016-05-04 | 北京京东尚科信息技术有限公司 | 文本校正方法和装置 |
CN107424612A (zh) * | 2017-07-28 | 2017-12-01 | 北京搜狗科技发展有限公司 | 处理方法、装置和机器可读介质 |
CN107506414A (zh) * | 2017-08-11 | 2017-12-22 | 武汉大学 | 一种基于长短期记忆网络的代码推荐方法 |
CN107621891A (zh) * | 2017-09-28 | 2018-01-23 | 北京新美互通科技有限公司 | 一种文本输入方法、装置及电子设备 |
CN107908616A (zh) * | 2017-10-18 | 2018-04-13 | 北京京东尚科信息技术有限公司 | 预测趋势词的方法和装置 |
CN108304424A (zh) * | 2017-03-30 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本关键词提取方法及文本关键词提取装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8136050B2 (en) * | 2003-11-21 | 2012-03-13 | Nuance Communications, Inc. | Electronic device and user interface and input method therefor |
US9785630B2 (en) * | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
WO2017082624A1 (ko) * | 2015-11-09 | 2017-05-18 | 박태운 | 문장 예측입력시스템 |
US11061948B2 (en) * | 2016-09-22 | 2021-07-13 | Verizon Media Inc. | Method and system for next word prediction |
CN108334496B (zh) * | 2018-01-30 | 2020-06-12 | 中国科学院自动化研究所 | 用于特定领域的人机对话理解方法与系统及相关设备 |
-
2018
- 2018-08-17 CN CN201810942238.4A patent/CN109117480B/zh active Active
- 2018-08-17 CN CN201910740458.3A patent/CN110377916B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645066A (zh) * | 2008-08-05 | 2010-02-10 | 北京大学 | 一种互联网新颖词监测方法 |
CN103870001A (zh) * | 2012-12-11 | 2014-06-18 | 百度国际科技(深圳)有限公司 | 一种生成输入法候选项的方法及电子装置 |
CN103869999A (zh) * | 2012-12-11 | 2014-06-18 | 百度国际科技(深圳)有限公司 | 对输入法所产生的候选项进行排序的方法及装置 |
CN103544246A (zh) * | 2013-10-10 | 2014-01-29 | 清华大学 | 互联网多种情感词典构建方法及系统 |
CN105550173A (zh) * | 2016-02-06 | 2016-05-04 | 北京京东尚科信息技术有限公司 | 文本校正方法和装置 |
CN108304424A (zh) * | 2017-03-30 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本关键词提取方法及文本关键词提取装置 |
CN107424612A (zh) * | 2017-07-28 | 2017-12-01 | 北京搜狗科技发展有限公司 | 处理方法、装置和机器可读介质 |
CN107506414A (zh) * | 2017-08-11 | 2017-12-22 | 武汉大学 | 一种基于长短期记忆网络的代码推荐方法 |
CN107621891A (zh) * | 2017-09-28 | 2018-01-23 | 北京新美互通科技有限公司 | 一种文本输入方法、装置及电子设备 |
CN107908616A (zh) * | 2017-10-18 | 2018-04-13 | 北京京东尚科信息技术有限公司 | 预测趋势词的方法和装置 |
Non-Patent Citations (3)
Title |
---|
Bilingual recursive neural network based data selection for statistical machine translation;Derek F. Wong等;《Knowledge-Based System》;20160915;15-24 * |
Phrase-Level Class based Language Model for Mandarin Smart Speaker Query Recognition;Yiheng Huang等;《arXiv》;20190902;1-5 * |
Twitter情感分类及可视化的研究;朱文君;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20131215(第S2期);I138-1482 * |
Also Published As
Publication number | Publication date |
---|---|
CN109117480B (zh) | 2022-05-27 |
CN110377916A (zh) | 2019-10-25 |
CN109117480A (zh) | 2019-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377916B (zh) | 词预测方法、装置、计算机设备及存储介质 | |
US11210306B2 (en) | Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system | |
US11741109B2 (en) | Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN110444199B (zh) | 一种语音关键词识别方法、装置、终端及服务器 | |
Kim et al. | Two-stage multi-intent detection for spoken language understanding | |
CN109887484B (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN108846077B (zh) | 问答文本的语义匹配方法、装置、介质及电子设备 | |
CN113672708B (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
CN110534087A (zh) | 一种文本韵律层级结构预测方法、装置、设备及存储介质 | |
US20170011289A1 (en) | Learning word embedding using morphological knowledge | |
US20150095017A1 (en) | System and method for learning word embeddings using neural language models | |
CN113268609A (zh) | 基于知识图谱的对话内容推荐方法、装置、设备及介质 | |
KR20170061016A (ko) | 데이터 인식 모델 구축 장치 및 방법과 데이터 인식 장치 | |
CN114596844B (zh) | 声学模型的训练方法、语音识别方法及相关设备 | |
WO2022085533A1 (ja) | 回答特定用テキスト分類器及び背景知識表現ジェネレータ及びその訓練装置、並びにコンピュータプログラム | |
Chou et al. | Exploiting annotators’ typed description of emotion perception to maximize utilization of ratings for speech emotion recognition | |
CN112131345B (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN112349294A (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN113297351A (zh) | 文本数据标注方法及装置、电子设备及存储介质 | |
CN114610887A (zh) | 坐席违规话术识别方法、装置、电子设备、存储介质 | |
CN118278543A (zh) | 答案评价模型训练方法、评价方法、装置、设备及介质 | |
CN118332121A (zh) | 基于多任务学习的前端文本分析方法 | |
CN114611529A (zh) | 意图识别方法和装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |