CN113589948B - 一种数据处理方法、装置和电子设备 - Google Patents
一种数据处理方法、装置和电子设备 Download PDFInfo
- Publication number
- CN113589948B CN113589948B CN202010366776.0A CN202010366776A CN113589948B CN 113589948 B CN113589948 B CN 113589948B CN 202010366776 A CN202010366776 A CN 202010366776A CN 113589948 B CN113589948 B CN 113589948B
- Authority
- CN
- China
- Prior art keywords
- pinyin
- sentence
- sequence
- candidates
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 66
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims description 67
- 238000012937 correction Methods 0.000 claims description 24
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 1
- 101000827703 Homo sapiens Polyphosphoinositide phosphatase Proteins 0.000 description 1
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 1
- 102100023591 Polyphosphoinositide phosphatase Human genes 0.000 description 1
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 1
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0237—Character input methods using prediction or retrieval techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明实施例提供了一种数据处理方法、装置和电子设备,其中,所述方法包括:获取输入序列和上文信息;将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果;将所述拼接结果输入至句子预测模型中,得到所述句子预测模型输出的句子候选;进而通过结合输入序列和输入关联信息进行长句预测,提高长句预测的准确性,从而提高用户输入效率。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据处理方法、装置和电子设备。
背景技术
随着计算机技术的发展,诸如手机、平板电脑等电子设备越来越普及,给人们的生活、学习、工作带来了极大的便利。这些电子设备通常安装有输入法应用程序(简称输入法),使得用户可使用该输入法进行信息输入。
在用户输入过程中,输入法可以预测出与输入序列匹配的各种类型的候选,如句子候选、人名候选、联想等等,以供用户上屏,从而提高用户输入效率。然而现有技术中,句子候选的预测准确不高,无法很好的满足用户的输入需求,从而无法很好的提高用户输入效率。
发明内容
本发明实施例提供一种数据处理方法,以通过提高长句预测的准确性,提高用户输入效率。
相应的,本发明实施例还提供了一种数据处理装置和一种电子设备,用以保证上述方法的实现及应用。
为了解决上述问题,本发明实施例公开了一种数据处理方法,具体包括:获取输入序列和上文信息;将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果;将所述拼接结果输入至句子预测模型中,得到所述句子预测模型输出的句子候选。
可选地,所述将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果,包括:将所述输入序列转换为对应的字词候选;将所述字词候选拼接在所述上文信息之后,得到对应的拼接结果。
可选地,所述输入序列包括拼音序列,所述将所述输入序列转换为对应的字词候选,包括:将所述拼音序列解析为多种形式的拼音;针对目标形式的拼音,将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识,得到所述目标形式的拼音对应的音节路径;采用多条音节路径,生成目标音节网络;基于所述目标音节网络,将所述拼音序列转换为对应的字词候选。
可选地,所述输入序列包括拼音序列,所述将所述输入序列转换为对应的字词候选,包括:对所述拼音序列进行纠错,得到对应的纠错序列;对所述拼音序列和纠错序列进行解析,得到对应的目标音节网络;基于所述目标音节网络将所述拼音序列转换为对应的字词候选。
可选地,在所述将所述输入序列转换为对应的字词候选之后,所述的方法还包括:获取输入关联信息;基于所述输入关联信息和上文信息,确定各字词候选的第一分值信息,所述第一分值信息用于表征字词候选的合理性;选取第一分值信息最高的前N个字词候选,N为正整数。
可选地,所述句子预测模型的输出还包括句子候选的第二分值信息,当所述句子候选包括多个时,所述的方法还包括:基于所述句子候选的第二分值信息,和所述句子候选中的字词候选对应的第一分值信息,对各句子候选进行排序。
可选地,当所述句子候选包括多个时,所述的方法还包括:获取输入关联信息;基于所述输入关联信息,对各句子候选进行排序。
可选地,所述的方法还包括训练句子预测模型的步骤:收集语料;对所述语料进行句粒度划分得到训练数据;和/或,对所述语料进行词粒度划分得到训练数据;采用所述训练数据对所述句子模型进行训练。
本发明实施例还公开了一种数据处理装置,具体包括:获取模块,用于获取输入序列和上文信息;拼接模块,用于将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果;预测模块,用于将所述拼接结果输入至句子预测模型中,得到所述句子预测模型输出的句子候选。
可选地,所述拼接模块,包括:转换子模块,用于将所述输入序列转换为对应的字词候选;信息拼接子模块,用于将所述字词候选拼接在所述上文信息之后,得到对应的拼接结果。
可选地,所述输入序列包括拼音序列,所述转换子模块,用于将所述拼音序列解析为多种形式的拼音;针对目标形式的拼音,将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识,得到所述目标形式的拼音对应的音节路径;采用多条音节路径,生成目标音节网络;基于所述目标音节网络,将所述拼音序列转换为对应的字词候选。
可选地,所述输入序列包括拼音序列,所述转换子模块,用于对所述拼音序列进行纠错,得到对应的纠错序列;对所述拼音序列和纠错序列进行解析,得到对应的目标音节网络;基于所述目标音节网络将所述拼音序列转换为对应的字词候选。
可选地,所述的装置还包括:选取模块,用于在所述将所述输入序列转换为对应的字词候选之后,获取输入关联信息;基于所述输入关联信息和上文信息,确定各字词候选的第一分值信息,所述第一分值信息用于表征字词候选的合理性;选取第一分值信息最高的前N个字词候选,N为正整数。
可选地,所述句子预测模型的输出还包括句子候选的第二分值信息,所述的装置还包括:第一排序模块,用于当所述句子候选包括多个时,基于所述句子候选的第二分值信息,和所述句子候选中的字词候选对应的第一分值信息,对各句子候选进行排序。
可选地,所述的装置还包括:第二排序模块,用于当所述句子候选包括多个时,获取输入关联信息;基于所述输入关联信息,对各句子候选进行排序。
可选地,所述的装置还包括:训练模块,用于收集语料;对所述语料进行句粒度划分得到训练数据;和/或,对所述语料进行词粒度划分得到训练数据;采用所述训练数据对所述句子模型进行训练。
本发明实施例还公开了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如本发明实施例任一所述的数据处理方法。
本发明实施例还公开了一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取输入序列和上文信息;将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果;将所述拼接结果输入至句子预测模型中,得到所述句子预测模型输出的句子候选。
可选地,所述将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果,包括:将所述输入序列转换为对应的字词候选;将所述字词候选拼接在所述上文信息之后,得到对应的拼接结果。
可选地,所述输入序列包括拼音序列,所述将所述输入序列转换为对应的字词候选,包括:将所述拼音序列解析为多种形式的拼音;针对目标形式的拼音,将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识,得到所述目标形式的拼音对应的音节路径;采用多条音节路径,生成目标音节网络;基于所述目标音节网络,将所述拼音序列转换为对应的字词候选。
可选地,所述输入序列包括拼音序列,所述将所述输入序列转换为对应的字词候选,包括:对所述拼音序列进行纠错,得到对应的纠错序列;对所述拼音序列和纠错序列进行解析,得到对应的目标音节网络;基于所述目标音节网络将所述拼音序列转换为对应的字词候选。
可选地,在所述将所述输入序列转换为对应的字词候选之后,所述的电子设备还包括:获取输入关联信息;基于所述输入关联信息和上文信息,确定各字词候选的第一分值信息,所述第一分值信息用于表征字词候选的合理性;选取第一分值信息最高的前N个字词候选,N为正整数。
可选地,所述句子预测模型的输出还包括句子候选的第二分值信息,当所述句子候选包括多个时,还包含用于进行以下操作的指令:基于所述句子候选的第二分值信息,和所述句子候选中的字词候选对应的第一分值信息,对各句子候选进行排序。
可选地,当所述句子候选包括多个时,还包含用于进行以下操作的指令:获取输入关联信息;基于所述输入关联信息,对各句子候选进行排序。
可选地,还包含用于进行以下训练句子预测模型的指令:收集语料;对所述语料进行句粒度划分得到训练数据;和/或,对所述语料进行词粒度划分得到训练数据;采用所述训练数据对所述句子模型进行训练。
本发明实施例包括以下优点:
本发明实施例中,可以获取输入序列和上文信息,然后将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果;再将所述拼接结果输入至句子预测模型中,得到所述句子预测模型输出的句子候选,进而通过结合输入序列和输入关联信息进行长句预测,提高长句预测的准确性,从而提高用户输入效率。
附图说明
图1是本发明的一种数据处理方法实施例的步骤流程图;
图2是本发明的一种模型训练方法实施例的步骤流程图;
图3是本发明的一种数据处理方法可选实施例的步骤流程图;
图4是本发明的一种数据处理装置实施例的结构框图;
图5是本发明的一种数据处理装置可选实施例的结构框图;
图6根据一示例性实施例示出的一种用于数据处理的电子设备的结构框图;
图7是本发明根据另一示例性实施例示出的一种用于数据处理的电子设备的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤102、获取输入序列和上文信息。
本发明实施例中,可以在用户输入输入序列过程中,进行长句预测,生成对应的句子候选。
其中,本发明实施例可以应用于多种输入方式的场景中进行长句预测。例如可以应用于笔画输入场景中进行长句预测;又如应用于拼音输入场景中进行长句预测;又例如应用于语音输入场景中进行长句预测;等等,本发明实施例对此不作限制。
此外,本发明实施例还可以应用于多种语言场景中进行长句预测。例如可以应用于中文输入场景中进行长句预测;又例如可以应用于英文输入场景中进行长句预测;还例如可以应用于韩文输入场景中进行长句预测;等等,本发明实施例对此不作限制。
对应的,所述输入序列可以包括笔画序列、拼音序列、外文字符串等,本发明实施例对此不作限制。
其中,可以在用户使用输入法输入的过程中,获取用户输入的输入序列和上文信息;然后基于获取的输入序列和上文信息,预测对应的句子候选。其中,所述上文信息可以包括编辑框中的内容和/或交互信息。
本发明的一个示例中,一种基于获取的输入序列和上文信息进行长句预测的方式,可以参照如下步骤104-步骤106:
步骤104、将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果。
步骤106、将所述拼接结果输入至句子预测模型中,得到所述句子预测模型输出的句子候选。
本发明实施例中,可以预先训练句子预测模型;然后采用训练后的句子预测模型进行长句预测。其中,句子预测模型的训练过程在后续实施例进行说明。
其中,可以将输入序列对应的字词候选与所述上文信息进行拼接,得到对应的拼接结果;然后将拼接结果输入至句子预测模型中,由句子预测模型基于拼接结果进行长句预测,输出对应的句子候选。其中,句子预测模型输出的句子候选可以是一个,也可以是多个,本发明实施例对此不作限制。
综上,本发明实施例中,可以获取输入序列和上文信息,然后将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果;再将所述拼接结果输入至句子预测模型中,得到所述句子预测模型输出的句子候选,进而通过结合输入序列和输入关联信息进行长句预测,提高长句预测的准确性,从而提高用户输入效率。
以下对句子预测模型的训练过程进行说明。
参照图2,示出了本发明的一种模型训练方法实施例的步骤流程图,具体可以包括如下步骤:
步骤202、收集语料。
本发明实施例中,可以收集语料,然后依据收集的语料生成训练数据,以采用训练数据对句子预测模型进行训练。其中,收集语料的方式可以包括多种,例如可以收集用户在输入法中输入的语句,作为语料;又例如收集各网页中的正文、摘要等,作为语料;本发明实施例对此不作限制。
步骤204、对所述语料进行句粒度划分得到训练数据;和/或,对所述语料进行词粒度划分得到训练数据。
本发明实施例中,可以对所述语料进行划分,生成训练数据。其中,一种对所述语料进行划分,生成训练数据的方式可以是:对所述语料进行句粒度划分得到训练数据。其中,可以以一个句子为基准,将语料划分为多个句子;然后采用相邻的且语义关联的两个句子,作为一组训练数据;进而可以得到多组训练数据。其中,所述句子可以包括单句和复句,所述单句可以是指由短语或单个的词构成的句子,不可再分析出分句;所述分句是结构上类似的单句而没有完整句调的语法单位。所述复句是指由两个或两个以上意义上密切相关,结构上互不包含的分句构成的。
此外,为了给用户提供更全面句子候选,进一步给用户带来更好的输入体验;还可以针对每个复句,以标点符号为间隔,将每个复句划分为多个分句。然后可以将每个复句其中相邻的两个分句,作为一组训练数据;以对上述生成的训练数据进行扩充。
其中,一种对所述语料进行划分,生成训练数据的方式可以是:对所述语料进行词粒度划分得到训练数据。其中,可以以词为粒度,将语料划分为多个字词;然后采用相邻的且语义关联的两个字词,作为一组训练数据。
本发明实施例中,可以是基于自然语言处理,确定词的粒度;然后以词为粒度将语料划分为多个字词。也可以是基于用户在输入过程中上屏操作,确定词的粒度;然后以词为粒度将语料划分为多个字词;本发明实施例对此不作限制。
步骤206、采用所述训练数据对所述句子预测模型进行训练。
以下以采用一组训练数据对所述句子预测模型进行训练为例进行说明。
本发明的一个示例中,当训练数据是通过对所述语料进行句粒度划分得到的时,每组训练数据中可以包括两个句子,或者两个分句。以下以一组训练数据包括两个句子为例进行说明。本发明实施例中,可以将该组训练数据中前一个句子输入至句子预测模型中,由句子预测模型进行前向计算,得到句子候选。然后将句子候选与该组训练数据中后一个句子进行比对,对句子预测模型的权重进行调整。进而通过该种方式采用多组训练数据对句子预测模型进行训练,直至满足所设置的结束条件为止。
本发明的一个实施例中,当训练数据是通过对所述语料进行句粒度划分得到的时,每组训练数据中可以包括两组字词。本发明实施例中,可以将该组训练数据中前一组字词输入至句子预测模型中,由句子预测模型进行前向计算,得到字词候选。然后将字词候选与该组训练数据中后一组字词进行比对,对句子预测模型的权重进行调整。进而通过这种方式采用多组训练数据对句子预测模型进行训练,直至满足所设置的结束条件为止。
参照图3,示出了本发明的一种数据处理方法可选实施例的步骤流程图,具体可以包括如下步骤:
步骤302、获取输入序列和上文信息。
其中,所述输入序列可以包括单个编码,也可以包括多个编码,本发明实施例对此不作限制。
本发明实施例中,一种将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果的一种方式可以是:将所述输入序列转换为对应的字词候选,将所述字词候选与所述上文信息进行拼接,得到对应的拼接结果。
步骤304、将所述输入序列转换为对应的字词候选。
本发明的一种示例中,所述输入序列为拼音序列时,一种将所述输入序列转换为对应的字词候选的方式可以是:对所述拼音序列进行解析,得到对应的目标音节网络(可以参照子步骤22-子步骤26);然后基于所述目标音节网络将所述拼音序列转换为对应的字词候选(可以参照子步骤28)。
子步骤22、将所述拼音序列解析为多种形式的拼音。
本发明实施例中,同一拼音序列可以对应多种形式的拼音,例如,拼音序列:“fangan”,对应拼音的形式可以包括:“fang’an”、“fan’gan”,“fa’n’gan”等。因此可以对拼音序列进行解析,将该拼音序列解析为多种形式的拼音;其中,每一种形式的拼音可以包括M个音节的拼音,M为正整数。例如:一种形式的拼音为“fang’an”,对应包括两个音节的拼音:“fang”和“an”;一种形式的拼音为“fan’gan”,对应包括两个音节的拼音:“fan”和“gan”;一种形式的拼音为“fa’n’gan”,对应包括两个音节的拼音:“fa”、“n”和“gan”。
子步骤24、针对目标形式的拼音,将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识,得到所述目标形式的拼音对应的音节路径。
本发明实施例中,可以从多种形式的拼音中,选取一种形式的拼音作为目标形式的拼音;然后目标形式的拼音,转换为对应的音节路径。其中,一种形式的拼音可以包括M个音节的拼音,M为正整数。
由于大多数用户在输入拼音序列时,通常习惯只输入目标文字的第一个拼音字符,或前几个拼音字符;因此本发明实施例为了能够在用户没有输入完整的拼音序列时,为用户提供与其目标输入相关的句子候选,提高用户输入效率;可以在将目标形式的拼音,转换为对应音节路径时,可以将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识,得到所述目标形式的拼音对应的音节路径;以增加确定拼音序列对应字词候选的全面性,从而能够增加后续基于字词候选预测出的句子候选的全面性。
其中,将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识的一种方式是:将所述目标形式的拼音中第M个音节的拼音转换为与所述第M个音节的拼音前缀匹配的拼音标识。其中,前缀匹配可以是指拼音标识对应的拼音包含目标形式的拼音中音节对应的拼音。以及确定所述目标形式的拼音序列中前M-1个音节中,对应拼音包含声母和韵母的音节,以及拼音仅包含声母的音节;将所述目标形式的拼音序列中前M-1个音节中,对应拼音包含声母和韵母的音节,转换为与对应拼音完全匹配的拼音标识。以及将所述目标形式的拼音序列中前M-1个音节中,对应拼音仅包含声母的音节转换为与对应声母匹配的拼音标识。
其中,可以通过查询拼音与拼音标识(如拼音ID)之间的映射关系,将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识。例如,目标形式的拼音中第M个音节的拼音为“h”,与“h”前缀匹配的拼音有“h”、“hen”、“he”、“heng”和“ha”等等;然后将“h”对应的拼音标识99、“hen”对应的拼音标识120、“he”对应的拼音标识110、“heng”对应的拼音标识122和“ha”对应的拼音标识105,确定为与第M个音节对应拼音前缀匹配的拼音标识。又例如,目标形式的拼音的前M-1个音节存在一个音节的拼音为“he”,则只能将“he”对应的标识110,作为与该音节对应拼音的拼音标识。
然后可以将目标形式的拼音中每个音节对应的拼音标识,作为一个音节节点;目标形式的拼音中第M个音节对应的拼音标识可以包括X个,X为正整数。再将所述目标形式的拼音中前M-1个音节节点,分别与第M个音节对应的X个音节节点,组成一条音节路径;进而可以得到目标形式的拼音对应的X条音节路径。
子步骤26、采用多条音节路径,生成目标音节网络。
然后再采用各种形式的拼音对应的音节路径,生成拼音序列对应的目标音节网络;进而目标音节网络可以包括多种音节路径。
子步骤28、基于所述目标音节网络将所述拼音序列转换为对应的字词候选。
其中,当所述目标音节网络包括多条音节路径时,可以将每一条音节路径转换为对应的字词候选;其中,每一条音节路径可以转换为至少一个字词候选。
本发明的一种示例中,以输入序列为拼音序列为例,说明将所述输入序列转换为对应的字词候选的方式,可以参照子步骤42-子步骤46:
子步骤42、对所述拼音序列进行纠错,得到对应的纠错序列。
子步骤44、对所述拼音序列和纠错序列进行解析,得到对应的目标音节网络。
子步骤46、基于所述目标音节网络将所述拼音序列转换为对应的字词候选。
由于用户在输入的过程中,可能会出现错输的情况;因此可以先对拼音序列进行纠错;进而能够采用正确的拼音序列转换为对应的字词候选;后续基于字词候选,能够预测出准确的句子候选,进一步提高了用户输入的效率,且还能够提高用户体验。
当然,当输入序列为其他序列或外文字符串时,也可以对输入序列进行纠错,得到纠错序列。
其中,可以将对纠错序列进行得到的音节网络,以及对拼音序列进行解析得到的音节网络,均称为目标音节网络。其中,对纠错序列进行解析,得到对应的目标音节网络的方式,与上述对拼音序列进行解析,得到对应的目标音节网络的方式类似(可参照子步骤22-子步骤26),在此不再赘述。
其中,得到字词候选中,可能有些字词候选是不合理的,也就是不满足自然语言规律的。因此在得到所述输入序列的字词候选后,可以从对应的多个字词候选中,筛选出合理的字词候选;以提高后续长句预测的准确性。可以参照如下步骤306-步骤310:
步骤306、获取输入关联信息。
步骤308、基于所述输入关联信息和上文信息,确定各字词候选的第一分值信息,所述第一分值信息用于表征字词候选的合理性。
步骤310、选取第一分值信息最高的前N个字词候选。
本发明实施例中,可以获取输入关联信息,所述输入关联信息可以包括与输入相关的信息,如输入环境信息、用户个性化信息等等;本发明实施例对此不作限制。然后可以基于输入关联信息和上文信息,确定各字词候选的第一分值信息;所述第一分值信息用于表征字词候选的合理性。例如可以采用语言模型基于所述输入关联信息和上文信息,对各字词候选进行打分,如确定每个字词候选在输入关联信息和上文信息的条件下的条件概率。然后可以选取出第一分值信息最高的前N个字词候选。其中,N为正整数。
步骤312、将所述字词候选拼接在所述上文信息之后,得到对应的拼接结果。
然后针对每个选取出的字词候选,可以将该字词候选拼接在所述上文信息之后,得到对应的拼接结果。其中,当选取出的字词候选包括多个时,对应的拼接结果也可以包括多个。
步骤314、将所述拼接结果输入至句子预测模型中,得到所述句子预测模型输出的句子候选。
当拼接结果包括多个时,每次可以将一个拼接结果输入至句子预测模型中,得到所述句子预测模型输出的句子候选;直至将所有的拼接结果输入至句子预测模型中得到对应的句子候选为止。
综上,本发明实施例中,可以获取输入序列和上文信息,然后将所述输入序列转换为对应的字词候选,并将所述字词候选拼接在所述上文信息之后,得到对应的拼接结果;再将所述拼接结果输入至句子预测模型中,得到所述句子预测模型输出的句子候选,进而将输入序列的字词候选作为上文信息的一部分输入至句子预测模型中进行长句预测,能够增加上文信息的信息量,从而可以进一步提高预测的准确性。
其中,本发明实施例中,当输入序列为拼音序列时,可以将所述拼音序列解析为多种形式的拼音;然后将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识,得到所述目标形式的拼音对应的音节路径;再采用多条音节路径生成目标音节网络,并基于所述目标音节网络将所述拼音序列转换为对应的字词候选,进而能够增加转换的字词候选的全面性,从而提高句子候选的准确性和全面性。
进一步,本发明实施例中,当输入序列为拼音序列时,可以对所述拼音序列进行纠错,得到对应的纠错序列;然后对所述拼音序列和纠错序列进行解析,得到对应的目标音节网络,再基于所述目标音节网络将所述拼音序列转换为对应的字词候选;进而能够基于准确的拼音序列进行转换,得到准确的字词候选;从而在用户错输的情况下,也能够为用户预测准确的句子候选,进一步提高句子候选的准确性。
再次,本发明实施例中,在将输入序列转换为对应的字词候选后,可以获取输入关联信息,然后基于输入关联信息和上文信息,确定各字词候选的第一分值信息再选取第一分值信息最高的前N个字词候选;其中,所述第一分值信息用于表征字词候选的合理性,进而能够筛选出合理的字词候选,一方面可以提高预测句子候选的准确性,另一方面可以降低句子预测模型的计算量。
本发明的一个实施例中,句子预测模型在输出句子候选的同时,还可以输出句子候选对应的第二分值信息;进而后续可以根据第二分值信息对各句子候选进行排序并展示。其中,展示句子候选的方式可以是,按照句子候选的排序结果进行展示。由于第二分值信息是基于输入序列和上文信息确定的,基于第二分值信息对句子候选进行排序考虑的因素不够全面;因此可以引入更多的因素,对句子候选进行排序。
本发明的一个示例中,一种对句子候选进行排序的方式可以是:基于所述句子候选的第二分值信息,和所述句子候选中的字词候选对应的第一分值信息,对各句子候选进行排序。
本发明的另一个示例中,一种对句子候选进行排序的方式可以是:获取输入关联信息;基于所述输入关联信息,对各句子候选进行排序;进而也能够提高对各句子候选排序的准确性。
此外,当上文信息较多时,可以将输入序列与部分上文信息的拼接结果输入至句子预测模型中,得到所述句子预测模型输出的句子候选;以降低句子预测模型的计算量。因此在对句子候选进行排序的过程中,可以基于完整的上文信息,对句子候选进行排序。本发明的又一个示例中,一种对句子候选进行排序的方式可以是:获取输入关联信息;基于所述输入关联信息和/或上文信息,对各句子候选进行排序;进而也能够提高对各句子候选排序的准确性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明的一种数据处理装置实施例的结构框图,具体可以包括如下模块:
获取模块402,用于获取输入序列和上文信息;
拼接模块404,用于将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果;
预测模块406,用于将所述拼接结果输入至句子预测模型中,得到所述句子预测模型输出的句子候选。
参照图5,示出了本发明的一种数据处理装置可选实施例的结构框图。
本发明一个可选的实施例中,所述拼接模块404,包括:
转换子模块4042,用于将所述输入序列转换为对应的字词候选;
信息拼接子模块4044,用于将所述字词候选拼接在所述上文信息之后,得到对应的拼接结果。
本发明一个可选实施例中,所述输入序列包括拼音序列,所述转换子模块4042,用于将所述拼音序列解析为多种形式的拼音;针对目标形式的拼音,将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识,得到所述目标形式的拼音对应的音节路径;采用多条音节路径,生成目标音节网络;基于所述目标音节网络,将所述拼音序列转换为对应的字词候选。
本发明一个可选实施例中,所述输入序列包括拼音序列,所述转换子模块4042,用于对所述拼音序列进行纠错,得到对应的纠错序列;对所述拼音序列和纠错序列进行解析,得到对应的目标音节网络;基于所述目标音节网络将所述拼音序列转换为对应的字词候选。
本发明一个可选实施例中,所述的装置还包括:
选取模块408,用于在所述将所述输入序列转换为对应的字词候选之后,获取输入关联信息;基于所述输入关联信息和上文信息,确定各字词候选的第一分值信息,所述第一分值信息用于表征字词候选的合理性;选取第一分值信息最高的前N个字词候选,N为正整数。
本发明一个可选实施例中,所述句子预测模型的输出还包括句子候选的第二分值信息,所述的装置还包括:
第一排序模块410,用于当所述句子候选包括多个时,基于所述句子候选的第二分值信息,和所述句子候选中的字词候选对应的第一分值信息,对各句子候选进行排序。
本发明一个可选实施例中,所述的装置还包括:
第二排序模块412,用于当所述句子候选包括多个时,获取输入关联信息;基于所述输入关联信息,对各句子候选进行排序。
本发明一个可选实施例中,所述的装置还包括:
训练模块414,用于收集语料;对所述语料进行句粒度划分得到训练数据;和/或,对所述语料进行词粒度划分得到训练数据;采用所述训练数据对所述句子模型进行训练。
综上,本发明实施例中,可以获取输入序列和上文信息,然后将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果;再将所述拼接结果输入至句子预测模型中,得到所述句子预测模型输出的句子候选,进而通过结合输入序列和输入关联信息进行长句预测,提高长句预测的准确性,从而提高用户输入效率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图6是根据一示例性实施例示出的一种用于数据处理的电子设备600的结构框图。例如,电子设备600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,电子设备600可以包括以下一个或多个组件:处理组件602,存储器604,电力组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制电子设备600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理部件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件606为电子设备600的各种组件提供电力。电力组件606可以包括电源管理系统,一个或多个电源,及其他与为电子设备600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当电子设备600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为电子设备600提供各个方面的状态评估。例如,传感器组件614可以检测到设备600的打开/关闭状态,组件的相对定位,例如所述组件为电子设备600的显示器和小键盘,传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变,用户与电子设备600接触的存在或不存在,电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件614经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件614还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由电子设备600的处理器620执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种数据处理方法,所述方法包括:获取输入序列和上文信息;将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果;将所述拼接结果输入至句子预测模型中,得到所述句子预测模型输出的句子候选。
可选地,所述将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果,包括:将所述输入序列转换为对应的字词候选;将所述字词候选拼接在所述上文信息之后,得到对应的拼接结果。
可选地,所述输入序列包括拼音序列,所述将所述输入序列转换为对应的字词候选,包括:将所述拼音序列解析为多种形式的拼音;针对目标形式的拼音,将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识,得到所述目标形式的拼音对应的音节路径;采用多条音节路径,生成目标音节网络;基于所述目标音节网络,将所述拼音序列转换为对应的字词候选。
可选地,所述输入序列包括拼音序列,所述将所述输入序列转换为对应的字词候选,包括:对所述拼音序列进行纠错,得到对应的纠错序列;对所述拼音序列和纠错序列进行解析,得到对应的目标音节网络;基于所述目标音节网络将所述拼音序列转换为对应的字词候选。
可选地,在所述将所述输入序列转换为对应的字词候选之后,所述的方法还包括:获取输入关联信息;基于所述输入关联信息和上文信息,确定各字词候选的第一分值信息,所述第一分值信息用于表征字词候选的合理性;选取第一分值信息最高的前N个字词候选,N为正整数。
可选地,所述句子预测模型的输出还包括句子候选的第二分值信息,当所述句子候选包括多个时,所述的方法还包括:基于所述句子候选的第二分值信息,和所述句子候选中的字词候选对应的第一分值信息,对各句子候选进行排序。
可选地,当所述句子候选包括多个时,所述的方法还包括:获取输入关联信息;基于所述输入关联信息,对各句子候选进行排序。
可选地,所述的方法还包括训练句子预测模型的步骤:收集语料;对所述语料进行句粒度划分得到训练数据;和/或,对所述语料进行词粒度划分得到训练数据;采用所述训练数据对所述句子模型进行训练。
图7是本发明根据另一示例性实施例示出的一种用于数据处理的电子设备700的结构示意图。该电子设备700可以是服务器,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器上执行存储介质730中的一系列指令操作。
服务器还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,一个或一个以上键盘756,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取输入序列和上文信息;将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果;将所述拼接结果输入至句子预测模型中,得到所述句子预测模型输出的句子候选。
可选地,所述将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果,包括:将所述输入序列转换为对应的字词候选;将所述字词候选拼接在所述上文信息之后,得到对应的拼接结果。
可选地,所述输入序列包括拼音序列,所述将所述输入序列转换为对应的字词候选,包括:将所述拼音序列解析为多种形式的拼音;针对目标形式的拼音,将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识,得到所述目标形式的拼音对应的音节路径;采用多条音节路径,生成目标音节网络;基于所述目标音节网络,将所述拼音序列转换为对应的字词候选。
可选地,所述输入序列包括拼音序列,所述将所述输入序列转换为对应的字词候选,包括:对所述拼音序列进行纠错,得到对应的纠错序列;对所述拼音序列和纠错序列进行解析,得到对应的目标音节网络;基于所述目标音节网络将所述拼音序列转换为对应的字词候选。
可选地,在所述将所述输入序列转换为对应的字词候选之后,所述的电子设备还包括:获取输入关联信息;基于所述输入关联信息和上文信息,确定各字词候选的第一分值信息,所述第一分值信息用于表征字词候选的合理性;选取第一分值信息最高的前N个字词候选,N为正整数。
可选地,所述句子预测模型的输出还包括句子候选的第二分值信息,当所述句子候选包括多个时,还包含用于进行以下操作的指令:基于所述句子候选的第二分值信息,和所述句子候选中的字词候选对应的第一分值信息,对各句子候选进行排序。
可选地,当所述句子候选包括多个时,还包含用于进行以下操作的指令:获取输入关联信息;基于所述输入关联信息,对各句子候选进行排序。
可选地,还包含用于进行以下训练句子预测模型的指令:收集语料;对所述语料进行句粒度划分得到训练数据;和/或,对所述语料进行词粒度划分得到训练数据;采用所述训练数据对所述句子模型进行训练。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种电子设备,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (19)
1.一种数据处理方法,其特征在于,包括:
获取输入序列和上文信息;
将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果,其中包括:将所述输入序列转换为对应的字词候选;将所述字词候选拼接在所述上文信息之后,得到对应的拼接结果;所述输入序列包括拼音序列,所述将所述输入序列转换为对应的字词候选,包括:将所述拼音序列解析为多种形式的拼音;针对目标形式的拼音,将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识,得到所述目标形式的拼音对应的音节路径;采用多条音节路径,生成目标音节网络;基于所述目标音节网络,将所述拼音序列转换为对应的字词候选;所述前缀匹配包括:所述拼音标识对应的拼音包含所述目标形式的拼音中音节对应的拼音;所述将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识,包括:通过查询拼音与拼音标识之间的映射关系,将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识;
将所述拼接结果输入至句子预测模型中,得到所述句子预测模型输出的句子候选。
2.根据权利要求1所述的方法,其特征在于,所述输入序列包括拼音序列,所述将所述输入序列转换为对应的字词候选,包括:
对所述拼音序列进行纠错,得到对应的纠错序列;
对所述拼音序列和纠错序列进行解析,得到对应的目标音节网络;
基于所述目标音节网络将所述拼音序列转换为对应的字词候选。
3.根据权利要求1所述的方法,其特征在于,在所述将所述输入序列转换为对应的字词候选之后,所述的方法还包括:
获取输入关联信息;
基于所述输入关联信息和上文信息,确定各字词候选的第一分值信息,所述第一分值信息用于表征字词候选的合理性;
选取第一分值信息最高的前N个字词候选,N为正整数。
4.根据权利要求3所述的方法,其特征在于,所述句子预测模型的输出还包括句子候选的第二分值信息,当所述句子候选包括多个时,所述的方法还包括:
基于所述句子候选的第二分值信息,和所述句子候选中的字词候选对应的第一分值信息,对各句子候选进行排序。
5.根据权利要求1所述的方法,其特征在于,当所述句子候选包括多个时,所述的方法还包括:
获取输入关联信息;
基于所述输入关联信息,对各句子候选进行排序。
6.根据权利要求1所述的方法,其特征在于,所述的方法还包括训练句子预测模型的步骤:
收集语料;
对所述语料进行句粒度划分得到训练数据;和/或,对所述语料进行词粒度划分得到训练数据;
采用所述训练数据对所述句子预测模型进行训练。
7.一种数据处理装置,其特征在于,包括:
获取模块,用于获取输入序列和上文信息;
拼接模块,用于将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果,包括:转换子模块,用于将所述输入序列转换为对应的字词候选;信息拼接子模块,用于将所述字词候选拼接在所述上文信息之后,得到对应的拼接结果;所述输入序列包括拼音序列,所述转换子模块,用于将所述拼音序列解析为多种形式的拼音;针对目标形式的拼音,将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识,得到所述目标形式的拼音对应的音节路径;采用多条音节路径,生成目标音节网络;基于所述目标音节网络,将所述拼音序列转换为对应的字词候选;所述前缀匹配包括:所述拼音标识对应的拼音包含所述目标形式的拼音中音节对应的拼音;所述将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识,包括:通过查询拼音与拼音标识之间的映射关系,将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识;
预测模块,用于将所述拼接结果输入至句子预测模型中,得到所述句子预测模型输出的句子候选。
8.根据权利要求7所述的装置,其特征在于,所述输入序列包括拼音序列,
所述转换子模块,用于对所述拼音序列进行纠错,得到对应的纠错序列;对所述拼音序列和纠错序列进行解析,得到对应的目标音节网络;基于所述目标音节网络将所述拼音序列转换为对应的字词候选。
9.根据权利要求7所述的装置,其特征在于,所述的装置还包括:
选取模块,用于在所述将所述输入序列转换为对应的字词候选之后,获取输入关联信息;基于所述输入关联信息和上文信息,确定各字词候选的第一分值信息,所述第一分值信息用于表征字词候选的合理性;选取第一分值信息最高的前N个字词候选,N为正整数。
10.根据权利要求9所述的装置,其特征在于,所述句子预测模型的输出还包括句子候选的第二分值信息,所述的装置还包括:
第一排序模块,用于当所述句子候选包括多个时,基于所述句子候选的第二分值信息,和所述句子候选中的字词候选对应的第一分值信息,对各句子候选进行排序。
11.根据权利要求7所述的装置,其特征在于,所述的装置还包括:
第二排序模块,用于当所述句子候选包括多个时,获取输入关联信息;基于所述输入关联信息,对各句子候选进行排序。
12.根据权利要求7所述的装置,其特征在于,所述的装置还包括:
训练模块,用于收集语料;对所述语料进行句粒度划分得到训练数据;和/或,对所述语料进行词粒度划分得到训练数据;采用所述训练数据对所述句子预测模型进行训练。
13.一种电子设备,其特征在于,包括有存储器,以及一个或者多个的程序,其中一个或者多个程序存储于存储器中,且经配置以由一个或者多个处理器执行所述一个或者多个程序包含用于进行以下操作的指令:
获取输入序列和上文信息;
将所述输入序列的字词候选与所述上文信息拼接,得到对应的拼接结果,包括:将所述输入序列转换为对应的字词候选;将所述字词候选拼接在所述上文信息之后,得到对应的拼接结果;所述输入序列包括拼音序列,所述将所述输入序列转换为对应的字词候选,包括:将所述拼音序列解析为多种形式的拼音;针对目标形式的拼音,将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识,得到所述目标形式的拼音对应的音节路径;采用多条音节路径,生成目标音节网络;基于所述目标音节网络,将所述拼音序列转换为对应的字词候选;所述前缀匹配包括:所述拼音标识对应的拼音包含所述目标形式的拼音中音节对应的拼音;所述将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识,包括:通过查询拼音与拼音标识之间的映射关系,将所述目标形式的拼音转换为与目标形式的拼音前缀匹配的拼音标识;
将所述拼接结果输入至句子预测模型中,得到所述句子预测模型输出的句子候选。
14.根据权利要求13所述的电子设备,其特征在于,所述输入序列包括拼音序列,所述将所述输入序列转换为对应的字词候选,包括:
对所述拼音序列进行纠错,得到对应的纠错序列;
对所述拼音序列和纠错序列进行解析,得到对应的目标音节网络;
基于所述目标音节网络将所述拼音序列转换为对应的字词候选。
15.根据权利要求13所述的电子设备,其特征在于,在所述将所述输入序列转换为对应的字词候选之后,所述的电子设备还包括:
获取输入关联信息;
基于所述输入关联信息和上文信息,确定各字词候选的第一分值信息,所述第一分值信息用于表征字词候选的合理性;
选取第一分值信息最高的前N个字词候选,N为正整数。
16.根据权利要求15所述的电子设备,其特征在于,所述句子预测模型的输出还包括句子候选的第二分值信息,当所述句子候选包括多个时,还包含用于进行以下操作的指令:
基于所述句子候选的第二分值信息,和所述句子候选中的字词候选对应的第一分值信息,对各句子候选进行排序。
17.根据权利要求13所述的电子设备,其特征在于,当所述句子候选包括多个时,还包含用于进行以下操作的指令:
获取输入关联信息;
基于所述输入关联信息,对各句子候选进行排序。
18.根据权利要求13所述的电子设备,其特征在于,还包含用于进行以下训练句子预测模型的指令:
收集语料;
对所述语料进行句粒度划分得到训练数据;和/或,对所述语料进行词粒度划分得到训练数据;
采用所述训练数据对所述句子预测模型进行训练。
19.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1-6任一所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010366776.0A CN113589948B (zh) | 2020-04-30 | 2020-04-30 | 一种数据处理方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010366776.0A CN113589948B (zh) | 2020-04-30 | 2020-04-30 | 一种数据处理方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113589948A CN113589948A (zh) | 2021-11-02 |
CN113589948B true CN113589948B (zh) | 2024-10-29 |
Family
ID=78237639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010366776.0A Active CN113589948B (zh) | 2020-04-30 | 2020-04-30 | 一种数据处理方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113589948B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102866782A (zh) * | 2011-07-06 | 2013-01-09 | 哈尔滨工业大学 | 一种提高整句生成效率的输入法和输入法系统 |
CN110673748A (zh) * | 2019-09-27 | 2020-01-10 | 北京百度网讯科技有限公司 | 输入法中候选长句的提供方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105607753B (zh) * | 2015-12-15 | 2018-03-30 | 上海嵩恒网络科技有限公司 | 一种五笔的长句输入方法和长句输入系统 |
CN107688397B (zh) * | 2016-08-03 | 2022-10-21 | 北京搜狗科技发展有限公司 | 一种输入方法、系统和用于输入的装置 |
CN107329585A (zh) * | 2017-06-28 | 2017-11-07 | 北京百度网讯科技有限公司 | 用于输入文字的方法和装置 |
CN110874145A (zh) * | 2018-08-30 | 2020-03-10 | 北京搜狗科技发展有限公司 | 一种输入方法、装置及电子设备 |
-
2020
- 2020-04-30 CN CN202010366776.0A patent/CN113589948B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102866782A (zh) * | 2011-07-06 | 2013-01-09 | 哈尔滨工业大学 | 一种提高整句生成效率的输入法和输入法系统 |
CN110673748A (zh) * | 2019-09-27 | 2020-01-10 | 北京百度网讯科技有限公司 | 输入法中候选长句的提供方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113589948A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106098060B (zh) | 语音的纠错处理方法和装置、用于语音的纠错处理的装置 | |
CN111368541B (zh) | 命名实体识别方法及装置 | |
CN111984749B (zh) | 一种兴趣点排序方法和装置 | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
CN111369978B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN108509412A (zh) | 一种数据处理方法、装置、电子设备以及存储介质 | |
CN110069624B (zh) | 文本处理方法及装置 | |
CN110244860A (zh) | 一种输入方法、装置和电子设备 | |
CN108628819B (zh) | 处理方法和装置、用于处理的装置 | |
CN110858100B (zh) | 联想候选词生成方法及装置 | |
CN107424612B (zh) | 处理方法、装置和机器可读介质 | |
CN112149403A (zh) | 一种确定涉密文本的方法和装置 | |
CN111381685B (zh) | 一种句联想方法和装置 | |
CN113589954B (zh) | 一种数据处理方法、装置和电子设备 | |
KR102327790B1 (ko) | 정보 처리 방법, 장치 및 저장 매체 | |
CN111324214B (zh) | 一种语句纠错方法和装置 | |
CN113589947B (zh) | 一种数据处理方法、装置和电子设备 | |
CN113589948B (zh) | 一种数据处理方法、装置和电子设备 | |
CN110908523B (zh) | 一种输入方法及装置 | |
CN110245358B (zh) | 一种机器翻译方法及相关装置 | |
CN108073294B (zh) | 一种智能组词方法和装置、一种用于智能组词的装置 | |
CN111198619A (zh) | 联想候选生成方法及装置 | |
CN113807082B (zh) | 一种目标用户确定方法、装置和用于确定目标用户的装置 | |
CN112837668B (zh) | 一种语音处理方法、装置和用于处理语音的装置 | |
CN112612442B (zh) | 一种输入方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |