CN110580308A

CN110580308A - 信息审核方法及装置、电子设备、存储介质

Info

Publication number: CN110580308A
Application number: CN201810496212.1A
Authority: CN
Inventors: 傅东博
Original assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Current assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2019-12-17
Anticipated expiration: 2038-05-22
Also published as: CN110580308B

Abstract

本公开提供了一种信息审核方法及装置，属于数据处理技术领域。该方法包括：从待审核信息中提取多个预设维度的目标数据，所述目标数据包括数值型数据及字符型数据；将所述数值型数据转换为第一序列，并将所述字符型数据转换为第二序列；根据所述第一序列与所述第二序列生成目标向量；通过机器学习模型对所述目标向量进行处理，得到所述待审核信息是否审核通过的结果。本公开可以对包含自然语言的信息进行审核处理，对复杂信息审核的准确率较高，且审核过程实现了自动化。

Description

信息审核方法及装置、电子设备、存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种信息审核方法及装置、电子设备、计算机可读存储介质。

背景技术

近年来，人工智能技术越来越多的应用于数据处理领域，使得数据处理由人工化发展到自动化、智能化。其中，信息审核作为数据处理领域的一个重要分支，是大多数行业中不可缺少的工作环节，其自动化与智能化的实现有利于提高工作效率及降低人力成本。

现有的信息审核方法多数是根据审核人员的经验制定一些规则逻辑，或者根据规则组合的不同情况建立规则数据库，使程序依据规则逻辑或规则数据库对信息进行判别，从而实现审核。然而该方法存在以下缺点：信息需要转换为与规则匹配的形式，对于自然语言等形式的信息，匹配规则非常繁琐或者完全无法处理；依据规则的判断通常是“是”或“否”的二分结果，对于含义较模糊的信息难以判断，且判断复杂信息的准确率较低；系统的优化依赖于人为更新规则逻辑或规则数据库，优化的过程较复杂，且容易导致规则冲突，影响系统的稳定性。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种信息审核方法及装置、电子设备、计算机可读存储介质，进而至少在一定程度上克服由于现有技术的限制和缺陷而导致的信息审核方法中无法处理自然语言信息以及审核复杂信息的准确率较低的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种信息审核方法，包括：从待审核信息中提取多个预设维度的目标数据，所述目标数据包括数值型数据及字符型数据；将所述数值型数据转换为第一序列，并将所述字符型数据转换为第二序列；根据所述第一序列与所述第二序列生成目标向量；通过机器学习模型对所述目标向量进行处理，得到所述待审核信息是否审核通过的结果。

在本公开的一种示例性实施例中，所述将所述字符型数据转换为第二序列包括：获取预设词汇数据库，所述预设词汇数据库包括预设词汇及各个所述预设词汇对应的唯一标号；对所述字符型数据进行分词处理，得到多个词汇；根据所述多个词汇在所述预设词汇数据库中对应的唯一标号，将所述字符型数据转换成所述第二序列。

在本公开的一种示例性实施例中，所述获取预设词汇数据库包括：获取多个样本数据，所述样本数据包括字符型样本数据；将所述字符型样本数据进行分词处理，得到预设词汇集；为所述预设词汇集中的各个词汇生成唯一标号；根据所述预设词汇集合中各个词汇和所述各个词汇的唯一标号，生成所述预设词汇数据库。

在本公开的一种示例性实施例中，所述为所述预设词汇集中的各个词汇生成唯一标号包括：统计所述预设词汇集中各个词汇的出现次数，并按照所述出现次数对所述各个词汇排序；将排序的序号确定为所述各个词汇的唯一标号。

在本公开的一种示例性实施例中，还包括：根据基准序列长度，对所述第二序列填充预设空词数值或删除多余数值。

在本公开的一种示例性实施例中，还包括：确定所述多个样本数据中包含词汇数量最多的基准字符型样本数据；将所述基准字符型样本数据按照所述预设词汇数据库转换为数值序列；将所述数值序列的长度确定为所述基准序列长度。

在本公开的一种示例性实施例中，还包括：当所述字符型数据包含所述预设词汇以外的词汇时，将所述预设词汇以外的词汇转换为预设新词数值。

在本公开的一种示例性实施例中，所述样本数据还包括数值型样本数据及所述样本数据对应的分类标签；所述方法还包括：将所述数值型样本数据转换为第一样本序列；将所述字符型样本数据转换为第二样本序列；通过所述第一样本序列、第二样本序列及对应的所述分类标签，训练并得到所述机器学习模型。

在本公开的一种示例性实施例中，所述待审核信息包括先验特征数据；所述方法还包括：在提取所述目标数据后，判断所述先验特征数据是否符合先验条件；如果判断所述先验特征数据不符合所述先验条件，则输出所述待审核信息审核不通过的结果。

在本公开的一种示例性实施例中，所述第二序列包括语义特征向量；所述将所述字符型数据转换为第二序列包括：将所述字符型数据分词，并通过word2vec模型得到多个词向量；根据所述多个词向量生成所述语义特征向量。

在本公开的一种示例性实施例中，所述机器学习模型包括长短期记忆网络模型或支持向量机模型。

根据本公开的一个方面，提供一种信息审核装置，包括：目标数据提取模块，用于从待审核信息中提取多个预设维度的目标数据，所述目标数据包括数值型数据及字符型数据；序列转换模块，用于将所述数值型数据转换为第一序列，以及将所述字符型数据转换为第二序列；目标向量生成模块，用于根据所述第一序列与所述第二序列生成目标向量；机器学习处理模块，用于通过机器学习模型对所述目标向量进行处理，得到所述待审核信息是否审核通过的结果。

根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

本公开的示例性实施例具有以下有益效果：

本公开的示例性实施例提供的方法及装置中，从待审核信息中提取目标数据后，将目标数据分类为数值型数据与字符型数据，分别转换为数值序列并合并为目标向量，以实现信息的整合，然后通过机器学习模型对目标向量进行处理，以确定审核是否通过。一方面，本实施例的方法可处理自然语言等形式的信息，适用的范围更广；并且将待审核信息中的全部信息整合到目标向量中，并通过机器学习模型进行处理，可以实现不同维度的信息之间相互组合与影响，对于复杂信息的审核准确率较高。另一方面，待审核信息中数值型数据与字符型数据的转换难度不同，将其分类处理，有利于系统调度更多资源以处理较难转换的字符型数据，提高效率。再一方面，整个信息审核的过程实现了自动化，节约了人力成本；在一些实施例中，系统的优化可以通过更多的训练数据及反馈事件训练机器学习模型以实现，过程简易，且保证了系统的稳定性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出应用本示例性实施例中信息审核方法的系统架构图；

图2示意性示出本示例性实施例中一种信息审核方法的流程图；

图3示意性示出本示例性实施例中另一种信息审核方法的流程图；

图4示意性示出本示例性实施例中一种信息审核方法的子流程图；

图5示意性示出本示例性实施例中一种信息审核装置的结构框图；

图6示意性示出本示例性实施例中一种用于实现上述方法的电子设备；

图7示意性示出本示例性实施例中一种用于实现上述方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

本公开的示例性实施例首先提供了一种信息审核方法。图1示出了可以应用本实施例中该信息审核方法的示例性系统架构示意图。如图1所示，系统架构100可以包括终端设备101、102、103，网络104及服务器105。网络104用于在终端设备101、102、103和服务器105之间提供通信连接，可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互，以发送或接收信息，例如向服务器105发送待审核信息，接收服务器105的审核结果信息。

终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、个人电脑等，可以安装各种客户端应用程序，例如网页浏览器应用、即时通信工具、购物类应用等。

服务器105可以是提供各种数据支持的服务器，例如对用户通过终端设备101、102、103所发送的待审核信息提供支持的后台管理服务器，后台管理服务器可以对接收到的待审核信息数据进行转发、分析、审核等处理，并将处理结果反馈给终端设备。

需要说明的是，本示例性实施例中所提供的信息审核方法可以应用于服务器105上，由服务器105接收终端设备发送的待审核信息并执行本实施例的信息审核方法，也可以应用于终端设备101、102、103上，接收用户输入的或其他终端设备发送的待审核信息后由安装于终端设备101、102、103上的应用程序单独执行本实施例的信息审核方法。

应当理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的，根据实际需要，可以设置任意数目的终端设备、网络和服务器。

如图2所示，在一示例性实施例中，所述信息审核方法可以包括以下步骤：

步骤S210，从待审核信息中提取多个预设维度的目标数据，所述目标数据包括数值型数据及字符型数据。

其中，待审核信息通常是按照程序设置的固定样式输入的信息集合。例如待审核信息是账号申请信息时，所包含的信息内容可以是用户在账号申请页面输入的字符、密码等；待审核信息是售后申请信息时，所包含的信息内容可以是用户在售后申请页面输入的选项、文本等。通过固定样式的设置，程序可以按照预设维度提取目标数据。例如用户在售后申请页面输入待审核信息后，程序可以将其转化为表1中的目标数据分类列表，其中字段即预设维度，用于数据索引或数据含义的标识。目标数据可以包括数值型数据及字符型数据，数值型数据如表1中的“int”类型，有些是直接输入的数值，例如“服务单号”，有些是将信息内容映射为数值，例如“是否为售后到家”可以根据用户的选项内容转换为“0”/“1”数值。字符型数据如表1中的“string”类型，通常是非选项的文本内容，可以直接将原字符作为数据进行提取。

表1

需要说明的是，表1所示仅是举例，数值型数据及字符型数据不限于表1所示的情况，在实际应用中，也可能通过不同于“int”、“string”的分类标识方式，例如数值型数据也可以用“num”标识，字符型数据也可以用“txt”标识等，本实施例对此不做特别限定。

本实施例的方法可直接用于处理待审核信息中的数值型数据及字符型数据。在一些场景中，待审核信息中还可能包含其他类型的信息，例如语音、图片等，则可以首先通过语音-文本转换、图像识别等手段将其转换为数值型数据或字符型数据，然后适用本实施例的方法进行信息审核。

步骤S220，将所述数值型数据转换为第一序列，并将所述字符型数据转换为第二序列。

其中，第一序列与第二序列都是数值序列，将其中的各数值按照特定顺序排列，数值之间可以用分隔符分开(例如逗号、空格)，也可以不分开而通过数值位进行区分，可以保存为离散的数值集合的形式，也可以保存为向量的形式，本实施例对此不做特别限定。

在处理数值型数据时，设定数值排列的顺序后可以直接实现转换，例如表1中的部分数值型数据可以按照表2所示的顺序排列形成第一序列，第一序列可以是(1,0,2,1,4,1)，程序可以根据数值在第一序列中的位置识别其含义。此外，还可以对原始的数值序列进行特定的处理，例如原始的数值序列为“0”/“1”序列时，可以在最左侧添加一位“1”，然后将整个数值序列转换为十进制数值，在信息无损失的情况下压缩第一序列的长度，以便于后续处理。

afsCategory	isBlackUser	customerGrade	isHasPackage	pickwareType	isPlus
						1	0	2	1	4	1

表2

在处理字符型数据时，需要将字符型数据中的文本转换为数值，文本-数值的转换方法有多种，在下面实施例中将具体说明。通过将文本转换为数值，并按照原文本的顺序排列数值，得到第二序列。

步骤S230，根据所述第一序列与所述第二序列生成目标向量。

通过转换得到第一序列与第二序列，实际对数值型数据与字符型数据进行了统一编码，则接下来可以将两个序列合并为目标向量，实现对两种数据的整合。

假设第一序列是m维的数值序列，第二序列是n维的数值序列，可以将第一序列与第二序列拼接，即目标向量可以是m+n维的向量，其中第一序列可以排列在第二序列之前，也可以排列在第二序列之后；也可以将第一序列与第二序列加权相加，例如第一序列乘以权重系数后(如果第二序列的各数值中最大为5位数，则权重系数可以是1*10⁶)与第二序列相加，即相应维度的数值相加，多余的数值保持原值，得到n维的目标向量(通常n>m，如果n<m，则目标向量为m维向量)。需要说明的是，为了便于程序处理，普通数值序列需要加上向量的符号(例如“vectoc.”、“[]”等)，以转换为向量的形式。

步骤S240，通过机器学习模型对所述目标向量进行处理，得到所述待审核信息是否审核通过的结果。

通过以上步骤S210～S230，将待审核信息中不同形式的信息整合到了目标向量中，进而可以通过机器学习模型处理目标向量。机器学习模型以向量为输入，以分类结果为输出，例如审核通过输出“1”，审核不通过输出“0”，在经过充分训练的前提下，将目标向量输入该机器学习模型，可以得到审核是否通过的分类结果。

本示例性实施例中，从待审核信息中提取目标数据后，将目标数据分类为数值型数据与字符型数据，分别转换为数值序列并合并为目标向量，以实现信息的整合，然后通过机器学习模型对目标向量进行处理，以确定审核是否通过。一方面，本实施例的方法可处理自然语言等形式的信息，适用的范围更广；并且将待审核信息中的全部信息整合到目标向量中，并通过机器学习模型进行处理，可以实现不同维度的信息之间相互组合与影响，对于复杂信息的审核准确率较高。另一方面，待审核信息中数值型数据与字符型数据的转换难度不同，将其分类处理，有利于系统调度更多资源以处理较难转换的字符型数据，提高效率。再一方面，整个信息审核的过程实现了自动化，节约了人力成本；在一些实施例中，系统的优化可以通过更多的训练数据及反馈事件训练机器学习模型以实现，过程简易，且保证了系统的稳定性。

在一示例性实施例中，参考图3所示，将字符型数据转换为第二序列的步骤可以通过步骤S321～S323实现：

步骤S321，获取预设词汇数据库，所述预设词汇数据库包括预设词汇及各个所述预设词汇对应的唯一标号。

预设词汇数据库可以由外部导入，也可以由本地构建并维护，其中预设词汇是指预设词汇数据库包含的所有词汇，每个词汇在预设词汇数据库中有对应的唯一标识，唯一标识可以是数值的形式，即预设词汇数据库中包含了预设词汇与数值的映射关系。需要说明的是，预设词汇数据库可以包括多种语言的词汇，例如本实施例中，预设词汇数据库包括中文与英文词汇，两种语言的词汇可以共用一套唯一标识，以便于预设词汇数据库索引。

步骤S322，对所述字符型数据进行分词处理，得到多个词汇。

分词处理的方法根据语言的不同而不同，例如英文可以直接按照单词的划分来分词，而中文则需要特别的分词处理，例如通过THULAC(THU Lexical Analyzer forChinese)中文词法分析工具或HanLP(Han Language Processing)分词器等进行处理。在本实施例中，也可以根据预设词汇数据库进行分词处理，将字符型数据中的中文字符在预设词汇数据库中逐个查询并匹配，若匹配成功，则识别该词汇，匹配过程可以通过正向匹配、逆向匹配、双向匹配等方式实现。

步骤S323，根据所述多个词汇在所述预设词汇数据库中对应的唯一标号，将所述字符型数据转换成所述第二序列。

将字符型数据分词处理为多个词语后，在预设数据库中查询到其映射的唯一标识，用唯一标识代替词语，可以将字符型数据转换为数值序列，该数值序列即为第二序列。在第二序列中，各个词语的唯一标识可以按照各个词语在原文本中的排列顺序排列，则充分保留了原文本中的信息。

在一示例性实施例中，参考图3所示，可以通过以下步骤S311～314S获取预设词汇数据库：

步骤S3211，获取多个样本数据，所述样本数据包括字符型样本数据。

样本数据是指从已经审核过的历史信息中所提取的样本信息，其中所包含的各种数据。样本数据通常与目标数据具有相同或相近的形式，因此样本数据中也可以包含数值型样本数据与字符型样本数据。在构建预设词汇数据库时，可以只使用其中的字符型样本数据，例如在构建售后信息审核的预设词汇数据库时，参考表1所示，可以调取大量样本数据中的“questionDesc”字符型数据(即“客户的描述”)，每个样本数据包含一个或多个语句文本，由此获得了语句文本的集合。通常样本数据的数量越多，预设词汇数据库中预设词汇的涵盖范围越大。

步骤S3212，将所述字符型样本数据进行分词处理，得到预设词汇集。

将上述语句文本的集合中各个语句都进行分词处理，可以得到大量词汇，将所有出现过的词汇组成预设词汇集。

步骤S3213，为所述预设词汇集中的各个词汇生成唯一标号。

通过预设逻辑，可以生成各个词汇的唯一标号。预设逻辑可以是随机生成唯一标号，也可以是按汉字拼音(或英文)的字母数据排列后顺序生成唯一标号，也可以是按词汇长度加汉字笔画数排列后顺序生成唯一标号等。在一示例性实施例中，还可以通过以下方法为预设词汇集中的各个词汇生成唯一标号：统计所述预设词汇集中各个词汇的出现次数，并按照所述出现次数对所述各个词汇排序；将排序的序号确定为所述各个词汇的唯一标号。其中可以按照出现次数由多至少排序，也可以反过来排序，当两个或两个以上词汇的出现次数相同时，可以进一步按照字母顺序、笔画数、词汇长度等细分排序。

步骤S3214，根据所述预设词汇集合中各个词汇和所述各个词汇的唯一标号，生成所述预设词汇数据库。

通过以上各种方法生成的唯一标号都是数值，则在预设词汇与数值之间建立了映射关系，至此生成了预设词汇数据库。由字符型样本数据生成预设词汇数据库的优点是可以根据应用场景的不同构建专门性的词汇数据库，例如本实施例的方法用于审核售后信息，则预设词汇数据库中可以较多的包含网购、商品质量、物流等相关类别的词汇，而对于相关性很低的如政治、军事等类别的词汇可以较少的涉及，从而能够减小预设词汇数据库的大小，提高查询与读取的速率。

构建预设词汇数据库后，可以通过步骤S321～S323实现将字符型数据转换为第二序列。然而不同的字符型数据包含的词汇数量通常不同，转换为第二序列后的长度也不同。需要说明的是，本示例实施方式中，序列长度是指序列中数值的数量，例如一个序列包含了5个数值，则其长度为5，与其中每个数值的位数无关，如序列(1,1,1,1,1)与序列(11,11111,111111,1111,111)的长度都为5。在一示例性实施例中，为了统一第二序列的长度，可以根据基准序列长度，对所述第二序列填充预设空词数值或删除多余数值。基准序列长度即所有第二序列的基准长度，通常可以设置为一个定值，使后续生产的所有第二序列都以此为标准进行长度处理。如果第二序列的长度不足，则可以填充预设空词数值，预设空词数值是指预设词汇数据库中“null”对应的数值标识，应当明显区分于实际词汇的唯一标识，例如预设空词数值可以是“0”；如果第二序列的长度超出，则可以从前或从后删除多余数值。

进一步的，可以根据以下步骤确定基准序列长度：步骤S410，确定所述多个样本数据中包含词汇数量最多的基准字符型样本数据；步骤S420，将所述基准字符型样本数据按照所述预设词汇数据库转换为数值序列；步骤S430，将所述数值序列的长度确定为所述基准序列长度。例如字符型样本数据中包含最多词汇的语句文本中包含了30个词汇，则转换为数值序列后其序列长度也是30，基准序列长度为30，即以字符型样本数据中的最大长度作为基准序列长度。由此可以保证基准序列长度较长，字符型数据转换为第二序列后，超出基准序列长度的概率较低，删除数值的情况较少发生，以尽可能的保留字符型数据中的完整信息。

根据步骤S3211～S3214构建的预设词汇数据库是基于字符型样本数据中词汇的统计，而字符型样本数据中包含的词汇数量有限，则在实际使用时，字符型数据可能包含预设词汇以外的词汇，在这种情况下可以将该预设词汇以外的词汇转换为预设新词数值。预设新词数值是指预设词汇数据库中无法识别词汇“unknown”对应的标识数值，应当明显区分于可识别词汇的唯一标识，例如预设词汇数据库中的总词汇数量为5位数时，可以设定“unknown”＝“99999”。当然，预设词汇以外的词汇可能是一个新词，也可能是拼写错误等造成的错词，还可能是人名等特殊词，对于这些情况可以统一转换为预设新词数值。此外，程序还可以对这些新词、错词、特殊词等进行储存，统计累积出现次数，如果某个词汇的出现次数达到一定标准(例如可以设定一个阈值)，程序可以判定其为常用词汇，添加到预设词汇数据库中。由此可以实现预设词汇数据库的更新与维护，过程简单且易于实现。

除了通过预设词汇数据库中的预设词汇-唯一标识映射关系实现字符型数据的处理外，还可以通过其他方法将字符型数据转换为第二序列。在一示例性实施例中，第二序列可以是语义特征向量，并且可以通过以下步骤得到该语义特征向量：将字符型数据分词，并通过word2vec模型得到多个词向量；根据多个词向量生成语义特征向量。word2vec是一个自然语言处理工具，可以将所有的词汇向量化，以定量的度量词汇与词汇之间的关系。在得到各个词汇的词向量后，可以通过将各词向量拼接、相加、求平均等方式生成语义特征向量。

需要补充的是，上述各实施例中将字符型数据转换为第二序列时，其中全部的词汇都参与了转换并在第二序列中占据了一个数值。为了减小第二序列的长度，以降低后续目标向量的维度，可以对字符型数据中的无关信息进行一定的筛选。在一示例性实施例中，可以在预设词汇数据库中将语义相关度较高的词汇标记为关键词汇，例如在应用于售后信息审核时，可以将与售后相关度较高的词汇标记为关键词汇(根据经验、类别词库、常用词汇等确定)，在处理字符型数据时，按照标点或分隔符等对其断句后，将不包含关键词汇的分句删除，从而能够删除例如“你好”、“谢谢”等未包含关键信息的文本，可以保留足够的关键信息同时缩短字符长度。

在得到第一序列与第二序列后，可以通过步骤S330生成目标向量，进而将目标向量输入到机器学习模型中进行分析处理。在一示例性实施例中，机器学习模型可以通过样本数据训练而得到，具体而言，除了字符型样本数据以外，样本数据还可以包括数值型样本数据及样本数据对应的分类标签，其中分类标签是指样本数据对应的原信息是否审核通过的结果，即机器学习模型中正确的输出结果，例如“1”代表审核通过，“0”代表审核不通过，可以用“1”或“0”对样本数据进行分类标签。基于此，参考图3所示，可以通过步骤S341～S343获得机器学习模型：步骤S341，将所述数值型样本数据转换为第一样本序列；步骤S342，将所述字符型样本数据转换为第二样本序列；步骤S343，通过所述第一样本序列、第二样本序列及对应的所述分类标签，训练并得到所述机器学习模型。第一样本序列及第二样本序列的转换过程与前述数值型数据及字符型数据的处理过程相同，在此基础上可以将两个样本序列合成为样本向量，作为机器学习模型的输入，将机器学习模型的输出与样本数据对应的分类标签对比，两者不同时调整机器学习模型的参数，通过多次迭代，得到准确率较高的模型。样本数据通常可以划分为训练数据与测试数据，例如通过8:2的比例划分，用训练数据训练机器学习模型，用测试数据测试模型的准确率，可以防止训练过程发生过拟合，提高模型的泛化能力。

在一示例性实施例中，机器学习模型可以包括长短期记忆网络模型(Long ShortTerm Memory Network，LSTM)或支持向量机模型(Support Vector Machine，SVM)。LSTM与SVM都是以多维度向量作为输入的机器学习模型，适于处理本实施例中的目标向量。其中，LSTM适合于处理间隔较长的词汇之间的关联情况，使每个词汇不再独立存在，词汇之间相互影响，对于一些反转的语义识别效果特别好；SVM适合于根据词汇语义而进行精准分类，着重于词语不同组合情况的分类。

在一示例性实施例中，待审核信息可以包括先验特征数据；参考图3所示，所述方法还可以包括：在提取目标数据后，判断先验特征数据是否符合先验条件；如果判断先验特征数据不符合先验条件，则输出所述待审核信息审核不通过的结果；如果判断符合，则继续进行步骤S320～S340以完成信息审核。先验条件是指在审核的过程中可以设立一些严格的硬性条件，当这些条件不符合时，不再考虑其他条件而直接审核不通过；与先验条件相关的数据即先验特征数据。例如表1中，可以将“是否超区”＝1，“预约时间”-“签收时间”≤“客户诉求”等作为先验条件，如果待审核信息中的先验特征数据不符合先验条件，如“是否超区”＝0或“预约时间”-“签收时间”>“客户诉求”时，则可以不进行后面的审核流程，直接输出审核不通过的结果，从而进一步简化整个流程。

本公开的示例性实施例还提供了一种信息审核装置，可以应用于图1所示的信息审核系统中的服务器105或终端设备101、102、103中。如图5所示，该信息审核装置500可以包括：目标数据提取模块510，用于从待审核信息中提取多个预设维度的目标数据，所述目标数据包括数值型数据及字符型数据；序列转换模块520，用于将所述数值型数据转换为第一序列，以及将所述字符型数据转换为第二序列；目标向量生成模块530，用于根据所述第一序列与所述第二序列生成目标向量；机器学习处理模块540，用于通过机器学习模型对所述目标向量进行处理，得到所述待审核信息是否审核通过的结果。

在一示例性实施例中，所述信息审核装置还可以包括：预设词汇数据库获取模块，用于获取预设词汇数据库，预设词汇数据库包括预设词汇及各个预设词汇对应的唯一标号；序列转换模块可以包括：第二序列转换单元，用于对字符型数据进行分词处理，得到多个词汇，以及根据其在预设词汇数据库中对应的唯一标号，将字符型数据转换成第二序列。

在一示例性实施例中，预设词汇数据库获取模块可以包括：样本数据处理单元，用于获取多个样本数据，样本数据包括字符型样本数据，并将字符型样本数据进行分词处理，得到预设词汇集；唯一标号生成单元，用于为预设词汇集中的各个词汇生成唯一标号，并根据预设词汇集合中各个词汇及其唯一标号，生成预设词汇数据库。

在一示例性实施例中，唯一标号生成单元可以用于统计预设词汇集中各个词汇的出现次数，按照出现次数对所述各个词汇排序，并将排序的序号确定为各个词汇的唯一标号。

在一示例性实施例中，第二序列转换单元还可以用于根据基准序列长度，对第二序列填充预设空词数值或删除多余数值。

在一示例性实施例中，序列转换模块可以包括：基准长度确定单元，用于确定样本数据中包含词汇数量最多的基准字符型样本数据，将其按照预设词汇数据库转换为数值序列，以及将该数值序列的长度确定为基准序列长度。

在一示例性实施例中，第二序列转换单元还可以用于当所述字符型数据包含所述预设词汇以外的词汇时，将所述预设词汇以外的词汇转换为预设新词数值。

在一示例性实施例中，样本数据还可以包括数值型样本数据及样本数据对应的分类标签；机器学习处理模块还可以用于将数值型样本数据转换为第一样本序列，将字符型样本数据转换为第二样本序列，以及通过第一样本序列、第二样本序列及对应的分类标签，训练并得到机器学习模型。

在一示例性实施例中，待审核信息可以包括先验特征数据；所述信息审核装置还可以包括：先验条件判断模块，用于在提取目标数据后，判断先验特征数据是否符合先验条件，以及当判断不符合时，输出待审核信息审核不通过的结果。

在一示例性实施例中，第二序列可以包括语义特征向量；序列转换模块还可以用于将字符型数据分词，通过word2vec模型得到多个词向量，并根据多个词向量生成所述语义特征向量。

在一示例性实施例中，机器学习模型可以包括长短期记忆网络模型或支持向量机模型。

以上装置中各模块/单元的具体细节在方法部分的实施例中已经详细说明，因此不再赘述。

本公开的示例性实施例还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图6来描述根据本公开的这种示例性实施例的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元66)的总线630、显示单元640。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图2中所示的步骤：步骤S210，从待审核信息中提取多个预设维度的目标数据，所述目标数据包括数值型数据及字符型数据；步骤S220，将所述数值型数据转换为第一序列，并将所述字符型数据转换为第二序列；步骤S230，根据所述第一序列与所述第二序列生成目标向量；步骤S240，通过机器学习模型对所述目标向量进行处理，得到所述待审核信息是否审核通过的结果。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)621和/或高速缓存存储单元622，还可以进一步包括只读存储单元(ROM)623。

存储单元620还可以包括具有一组(至少一个)程序模块625的程序/实用工具624，这样的程序模块625包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器660通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开示例性实施例的方法。

本公开的示例性实施例还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

参考图7所示，描述了根据本公开的示例性实施例的用于实现上述方法的程序产品700，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的示例性实施例，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种信息审核方法，其特征在于，包括：

从待审核信息中提取多个预设维度的目标数据，所述目标数据包括数值型数据及字符型数据；

将所述数值型数据转换为第一序列，并将所述字符型数据转换为第二序列；

根据所述第一序列与所述第二序列生成目标向量；

通过机器学习模型对所述目标向量进行处理，得到所述待审核信息是否审核通过的结果。

2.根据权利要求1所述的方法，其特征在于，所述将所述字符型数据转换为第二序列包括：

获取预设词汇数据库，所述预设词汇数据库包括预设词汇及各个所述预设词汇对应的唯一标号；

对所述字符型数据进行分词处理，得到多个词汇；

根据所述多个词汇在所述预设词汇数据库中对应的唯一标号，将所述字符型数据转换成所述第二序列。

3.根据权利要求2所述的方法，其特征在于，所述获取预设词汇数据库包括：

获取多个样本数据，所述样本数据包括字符型样本数据；

将所述字符型样本数据进行分词处理，得到预设词汇集；

为所述预设词汇集中的各个词汇生成唯一标号；

根据所述预设词汇集合中各个词汇和所述各个词汇的唯一标号，生成所述预设词汇数据库。

4.根据权利要求3所述的方法，其特征在于，所述为所述预设词汇集中的各个词汇生成唯一标号包括：

统计所述预设词汇集中各个词汇的出现次数，并按照所述出现次数对所述各个词汇排序；

将排序的序号确定为所述各个词汇的唯一标号。

5.根据权利要求3所述的方法，其特征在于，还包括：

根据基准序列长度，对所述第二序列填充预设空词数值或删除多余数值。

6.根据权利要求5所述的方法，其特征在于，还包括：

确定所述多个样本数据中包含词汇数量最多的基准字符型样本数据；

将所述基准字符型样本数据按照所述预设词汇数据库转换为数值序列；

将所述数值序列的长度确定为所述基准序列长度。

7.根据权利要求2所述的方法，其特征在于，还包括：

当所述字符型数据包含所述预设词汇以外的词汇时，将所述预设词汇以外的词汇转换为预设新词数值。

8.根据权利要求3所述的方法，其特征在于，所述样本数据还包括数值型样本数据及所述样本数据对应的分类标签；所述方法还包括：

将所述数值型样本数据转换为第一样本序列；

将所述字符型样本数据转换为第二样本序列；

通过所述第一样本序列、第二样本序列及对应的所述分类标签，训练并得到所述机器学习模型。

9.根据权利要求1所述的方法，其特征在于，所述待审核信息包括先验特征数据；所述方法还包括：

在提取所述目标数据后，判断所述先验特征数据是否符合先验条件；

如果判断所述先验特征数据不符合所述先验条件，则输出所述待审核信息审核不通过的结果。

10.根据权利要求1所述的方法，其特征在于，所述第二序列包括语义特征向量；所述将所述字符型数据转换为第二序列包括：

将所述字符型数据分词，并通过word2vec模型得到多个词向量；

根据所述多个词向量生成所述语义特征向量。

11.根据权利要求1所述的方法，其特征在于，所述机器学习模型包括长短期记忆网络模型或支持向量机模型。

12.一种信息审核装置，其特征在于，包括：

目标数据提取模块，用于从待审核信息中提取多个预设维度的目标数据，所述目标数据包括数值型数据及字符型数据；

序列转换模块，用于将所述数值型数据转换为第一序列，以及将所述字符型数据转换为第二序列；

目标向量生成模块，用于根据所述第一序列与所述第二序列生成目标向量；

机器学习处理模块，用于通过机器学习模型对所述目标向量进行处理，得到所述待审核信息是否审核通过的结果。

13.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-11任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-11任一项所述的方法。