CN113887233A

CN113887233A - 文本处理方法及装置

Info

Publication number: CN113887233A
Application number: CN202111016918.1A
Authority: CN
Inventors: 刘鑫; 杨宝嵩; 刘大一恒; 张海波; 骆卫华
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2022-01-04
Anticipated expiration: 2041-08-31
Also published as: CN113887233B

Abstract

本说明书实施例提供文本处理方法及装置，其中所述文本处理方法包括：在初始词表中确定初始文本的初始词语；基于预设处理规则对所述初始文本进行处理，获得处理后的初始文本的候选词语；将所述初始词语与所述候选词语进行比对，将与所述初始词语不匹配的候选词语作为目标词语；基于预设表征生成规则计算所述目标词语的词表征。

Description

文本处理方法及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种文本处理方法。

背景技术

随着科技的发展，以及人们对便捷的人机交互方式的需求，机器学习在自然语言处理领域得到了广泛应用。例如，利用训练好的语言生成模型，将一些对象转换为准确的自然语言，即用较为准确地语句来描述这些对象，这些对象可以为语音、图片或者文本等。语言生成模型中词表构建是指从文本预料中以自动或半自动的方式获得词的过程，直接决定了自然语言处理系统性能的好坏，实际应用中，对预先训练好的模型词表进行固定之后，无法针对后续任务数据做出调整，因此存在着对特定领域专有名词或是句子的过度切分，使得在词表中无法准确地确定词语的词表征，导致文本处理的效果较差。

发明内容

有鉴于此，本说明书施例提供了一种文本处理方法。本说明书一个或者多个实施例同时涉及一种文本处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种文本处理方法，包括：

在初始词表中确定初始文本的初始词语；

基于预设处理规则对所述初始文本进行处理，获得处理后的初始文本的候选词语；

将所述初始词语与所述候选词语进行比对，将与所述初始词语不匹配的候选词语作为目标词语；

基于预设表征生成规则计算所述目标词语的词表征。

根据本说明书实施例的第二方面，提供了一种文本处理装置，包括：

确定模块，被配置为在初始词表中确定初始文本的初始词语；

获得模块，被配置为基于预设处理规则对所述初始文本进行处理，获得处理后的初始文本的候选词语；

比对模块，被配置为将所述初始词语与所述候选词语进行比对，将与所述初始词语不匹配的候选词语作为目标词语；

计算模块，被配置为基于预设表征生成规则计算所述目标词语的词表征。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现所述文本处理方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现任意一项所述文本处理方法的步骤。

根据本说明书实施例的第五方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述文本处理方法的步骤。

本说明书一个实施例提供的文本处理方法，在初始词表中确定初始文本的初始词语；基于预设处理规则对所述初始文本进行处理，获得处理后的初始文本的候选词语；将所述初始词语与所述候选词语进行比对，将与所述初始词语不匹配的候选词语作为目标词语；基于预设表征生成规则计算所述目标词语的词表征。

具体的，通过将初始文本的初始词语与处理后的初始文本中的候选词语进行比对，筛选出初始词语与候选词语不匹配的目标词语，进而基于预设表征生成规则，能够计算出对初始文本处理后中的目标词语的词表征，便于后续适应于不同的应用场景对初始文本中的目标词语的词表征的需求，通过该种方式，不仅能够获得该初始文本中的更多词语的词表征，还便于后续基于目标词语、目标词语的词表征以及初始词表中满足场景需求的初始词语训练文本处理模型，使得文本处理模型效果增强，同时也能适应不同应用场景的需求。

附图说明

图1是本说明书一个实施例提供的一种文本处理方法的流程图；

图2是本说明书一个实施例提供的一种文本处理方法实现词表征迁移的示意图；

图3是本说明书一个实施例提供的一种文本处理方法的模型应用示意图；

图4是本说明书一个实施例提供的一种文本处理装置的结构示意图；

图5是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

预训练模型：在大规模无标注数据上训练得到的模型。

词表：自然语言神经网络模型处理语句时将首先将词语映射为数学表示，这一过程将用到词表用作查询。

实际应用中，预训练好的模型词表通常是固定的，无法针对后续其他项目场景中的任务数据做出调整，存在着对特定领域专有名词或是句子过度切分，使得预训练模型在实际项目场景中对句子可能难以理解，无法对句子进行有效地处理，进而制约了预训练模型的效果。针对上述场景，可以对后续任务数据进行特定优化，比如使用其他数据重新训练新的词表或是使用下游数据训练新词表，而针对该种解决方式，每一个特定项目场景中都将耗费资源进行繁琐的词表重新训练，不具有通用性，同时完全摒弃初始词表还将会影响模型性能。

基于此，本说明书实施例提供的文本处理方法，提出针对语言生成模型中的子词切分差异问题提出的一种可插拔式词表迁移的文本处理方法，也提出了一个新式的预训练模型运用流程，在面对新的词表中词语不在原始词表出现的情况，可通过一个词表征生成器对这部分新词语的数学表征进行生成。该词表征生成器将综合分析与新词语形态相近的老词语的数学表征，通过神经网络模型计算得出新词语的数学表征，从而允许下游实际项目场景使用期望的词表；而在训练词表征生成器时将采用在预训练模型中对旧词语随机拆分和组合来产生新词语的方式，通过计算预训练模型的训练损失值和拉近原始句子标识与拆分组合后句子的损失值，共同训练、更新该表征生成器的模型参数。该种方式能够让模型在实际项目场景中灵活选用特定词表，进而提升模型在项目场合中的效果。

需要说明的是，本说明书实施例提供的文本处理方法中涉及的预训练模型可以理解任意文本处理模型，比如翻译模型等。下述实施例的具体描述均以文本翻译模型为例进行详细说明。

在本说明书中，提供了一种文本处理方法，本说明书同时涉及一种文本处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，在下面的实施例中逐一进行详细说明。

为了获得更多的模型训练数据，实现文本处理模型适应于不同的项目场景，本实施例提供的文本处理方法提出了一种目标词语的词表征生成方式，利用预设表征生成规则可以为不同的目标词语生成相应的词表征，进而生成具有适应于项目场景的词表，也可将该词表应用于文本处理模型；具体实施方式可参考图1，图1示出了根据本说明书一个实施例提供的一种文本处理方法的流程图，具体包括以下步骤。

步骤102：在初始词表中确定初始文本的初始词语。

其中，初始词表可以理解为预训练模型中初始训练数据的词语；初始文本可以理解为待处理的文本语句。

需要说明的是，本实施例以预训练模型中的初始训练数据中的初始文本的详细处理进行举例说明，按照下述方式，同时可对多个文本进行相同的处理，本实施例对此不做过多限定。

实际应用中，服务器可对一个初始文本进行划分，该初始文本可以理解为预训练模型的第一应用场景中的文本语句，并在预训练模型的初始词表中确定该文本语句划分后对应的初始词语，其中，对文本语句处理获得初始词语的过程可基于第一应用场景下的文本处理规则进行划分，本实施例对此具体的划分方式不做任何限定。

需要说明的是，第一应用场景可以理解为该预训练模型能够应用的第一应用场景，比如预训练模型为文本翻译模型，能够应用的第一应用场景为科学类翻译场景，意味着该场景下的文本翻译模型中的词表比较偏向于科学类词汇。

例如，第一应用场景为科学类的文本处理场景，选取的第一个初始文本为“汽水中含有大量二氧化碳”，则服务器的预训练模型可对该初始文本进行划分，最后获得的初始词语分别为“汽水”、“中”、“含有”、“大量”、“二”、“氧化”、“碳”。

步骤104：基于预设处理规则对所述初始文本进行处理，获得处理后的初始文本的候选词语。

其中，预设处理规则可以理解为对初始文本进行划分和/或合并词语的规则，每个不同的应用场景可适应于不同的处理规则，本实施例对此也不做过多限定。

实际应用中，为了适应不同的项目应用场景，可对初始文本再次按照预设处理规则进行处理，获得处理后的初始文本的候选词语，便于后续从候选词语中筛选出适应于另一项目应用场景下的词语，实现一个新的适应于该项目应用场景下的词表。

具体的，所述基于预设处理规则对所述初始文本进行处理，获得处理后的初始文本的候选词语，包括：

基于预设处理规则对所述初始文本中的词语进行拆分和/或合并，获得所述初始文本的候选词语。

实际应用中，为了适应预训练模型的第二应用场景，其中，第二应用场景可以为生活类翻译场景，进而基于第二应用场景下的预设处理规则对初始文本中的词语进行拆分和/或合并，拆分可以理解为对一组词中的字进行拆分，比如，“汽水”一词，可以拆分为“汽”和“水”，合并可以理解为将相邻的两组词进行合并处理，比如，“二”和“氧化”这两个词进行合并后为“二氧化”，因此，对于拆分和/或合并之后的词作为初始文本的候选词语。

本说明书实施例提供的文本处理方法，通过预设处理规则对初始文本再次进行处理，获得候选词语，便于后续在第二应用场景下候选词语中筛选出与初始词语不同的词语，进而获得该词语的词表征。

步骤106：将所述初始词语与所述候选词语进行比对，将与所述初始词语不匹配的候选词语作为目标词语。

为了确定初始文本在第二应用场景中与第一应用场景所需不同的翻译词语，实际应用中，需要将第一应用场景下的初始词语与第二应用场景下的候选词语进行比对，筛选出与初始词语不匹配的候选词语作为目标词语，进而确定该目标词语的词表征，便于后续将该目标词语的词表征更新到初始词表中，使得该初始词表适用于第一应用场景的同时，也适应于第二应用场景。

步骤108：基于预设表征生成规则计算所述目标词语的词表征。

其中，预设表征生成规则可以理解为计算词语的词表征规则，可以为一个表征生成器，也可以为表征计算公式，本实施例对此不做限定，下述实施例将提供三种词表征计算方式，以确定目标词语的词表征，但本说明书实施例中不限于下述三种计算方式。

为了确定目标词语准确的词表征，可将目标词语分为两种情况，一种是能够继续拆分的目标词语称为第一目标词语，另一种是无法拆分的目标词语可称为第二目标词语，进而针对上述两种情况还可根据表征均值分别计算不同的目标词语的词表征；具体的，所述基于预设表征生成规则计算所述目标词语的词表征之前，还包括：

确定第一目标词语中每个分词的词表征，并基于所述每个分词的词表征确定第一表征均值；和/或

确定与第二目标词语具有关联关系的初始词语的词表征，并基于与所述第二目标词语具有关联关系的初始词语的词表征确定第二表征均值。

其中，第一目标词语可以理解为能够进一步进行拆分出分词的目标词语，比如“汽水”这个目标词语，可以拆分出两个分词，分别为“汽”和“水”。

其中，第二目标词语可以理解为无法进行继续拆分出分词的目标词语，比如“水”这个目标词语，无法继续拆分出分词。

具体实施时，预训练模型可确定第一目标词语中每个分词的词表征，进而可确定每个分词的词表征的平均值，作为第一表征均值，实际应用中，第一目标词语的词表征可基于每个分词的词表征的均值确定；由于第二目标词语无法拆分出分词，则预训练模型可确定该第二目标词语具有关联关系的初始词语的词表征，再基于每个与第二目标词语具有关联关系的初始词语的词表征确定第二表征均值，实际应用中，第二目标词语的词表征可基于与该第二目标词语具有关联关系的初始词语的词表征均值获得。

例如，第一目标词语为“汽水”，则预训练模型可确定每个分词“汽”的词表征以及“水”的词表征，分别可表示为h’(汽)以及h’(水)，因此，“汽水”的第一表征均值h’(汽水)为h’(汽)以及h’(水)的平均值。第二目标词语为“水”，则可从初始词表中确定与“水”具有关联关系的初始词语有“冰水”、“开水”、“水中”，进而确定“冰水”的词表征、“开水”的词表征，“水中”的词表征，分别可标识为h’(冰水)、h’(开水)以及h’(水中)，因此，“水”的第二表征均值h’(水)为h’(冰水)、h’(开水)以及h’(水中)的平均值。

需要说明的是，本实施例确定的第一表征均值以及第二表征均值，便于后续对目标词语的表征值的计算，下述针对目标词语的词表征的三种计算方式均基于上述第一表征均值以及第二表征均值的计算展开，具体详见下述实施例的实施方式。

第一种目标词语的词表征的计算方式：将第一目标词语中每个分词的词表征的均值作为第一目标词语的词表征，将与第二目标词语具有关联关系的初始词语的词表征均值作为第二目标词语的词表征。

具体的，所述基于预设表征生成规则计算所述目标词语的词表征，包括：

基于所述第一表征均值计算所述第一目标词语的词表征；和/或

基于所述第二表征均值计算所述第二目标词语的词表征。

实际应用中，第一目标词语的词表征可基于第一表征均值获得，第二目标词语的词表征可基于第二表征均值获得，具体的，第一目标词语的词表征计算方式可参考公式(1)：

其中，G(w)代表第一目标词语的词表征值，E(w')为第一目标词语的第一表征均值，S_m(w)为与第一目标词语w词形态相近的词语集合；第二目标词语的词表征计算方式可参考第一目标词语的词表征计算公式，在此不做过多赘述。

本说明书实施例提供的文本处理方法，通过目标词语中的分词的词表征均值或者与目标词语相关联的词表征均值，计算目标词语的词表征，能够准确地确定目标词语的词表征，便于后续将目标词语的词表征加入初始词表进行更新。

第二种目标词语的词表征的计算方式：不仅通过分词的词表征均值或者与目标词语有关联关系的初始词语的词表征均值，还可基于目标词语的语义信息确定每个分词的权重值或者与目标词语有关联关系的初始词语的权重值，进而调整不同词语均值计算的权重比例，实现更为准确地计算目标词语的词表征。

基于语义信息确定第一目标词语中每个分词的第一权重值，并基于所述第一表征均值以及所述每个分词的第一权重值计算所述第一目标词语的词表征；和/或

基于语义信息确定与第二目标词语具有关联关系的初始词语的第二权重值，基于所述第二表征均值以及所述第二权重值计算所述第二目标词语的词表征。

实际应用中，通过第一目标词语的语义信息可以确定第一目标词语中每个分词的第一权重值，比如第一目标词语为“汽水”，通过语义信息可以得知该第一目标词语中分词“水”比分词“汽”语义所占的权重值高，因此基于初始词表确定每个分词的第一权重值，并通过第一表征均值以及第一权重值计算第一目标词语的词表征，具体的计算方式可参考公式(2)：

其中，G(w)代表第一目标词语的词表征值，E(w')为第一目标词语的第一表征均值，S_m(w)为与第一目标词语w词形态相近的词语集合，W为可训练的参数矩阵。

实际应用中，通过第二目标词语的语义信息可以确定与第二目标词语具有关联关系的初始词语的第二权重值，比如，第二目标词语为“水”，与第二目标词语具有关联关系的初始词语有“冰水”、“开水”、“水中”，根据语音信息可以得知“冰水”、“开水”的语义比“水中”这个初始词语所占的权重值高，因此基于初始词表可确定每个与第二目标词语具有关联关系的初始词语的第二权重值，并通过第二表征均值以及第二权重值计算第二目标词语的词表征，具体的计算方式可参考上述公式(2)，在此不做过多赘述。

本说明书实施例提供的文本处理方法，基于注意力机制的词表征计算方式，通过确定每个分词或者与目标词语具有关联关系的初始词语的权重，再基于权重与表征均值计算目标词语的词表征，通过上述方式加入了语义的权重信息，使得目标词语的表达含义更未准确，进而计算目标词语的词表征的方式也更为有效。

第三种目标词语的词表征的计算方式：在根据语义信息计算目标词语的分词权重值或者计算与目标词语具有关联关系的初始词语的权重值时，将注意力机制融入位置信息，进而不仅实现了不同词语的权重比例，还通过位置信息表明词语所在的位置信息，使得目标词语的词表征的计算方式更为精准。

确定第一目标词语中每个分词的位置信息，基于所述位置信息以及语义信息确定所述第一目标词语中每个分词的第一权重值，并基于所述第一表征均值以及所述每个分词的第一权重值计算所述第一目标词语的词表征；和/或

确定第二目标词语在与所述第二目标词语具有关联关系的初始词语中的位置信息，基于所述位置信息以及语义信息确定与所述第二目标词语具有关联关系的初始词语的第二权重值，并基于所述第二表征均值以及所述第二权重值计算所述第二目标词语的词表征。

实际应用中，对第一目标词语进行拆分之后，能够确定出每个分词的位置信息，并基于每个分词的位置信息以及语义信息确定第一目标词语中每个分词的第一权重值，比如，对于第一目标词语“汽水”，拆分后的分词“汽”和分词“水”，分词“汽”的位置为第一目标词语的首位，分词“水”的位置为第一目标词语的末位，因此在确定分词“汽”的第一权重值的过程中，需要考虑分词“汽”所在的位置信息，基于该位置信息以及语义信息确定该分词的第一权重值，进而根据每个分词的第一权重值以及第一表征均值计算第一目标词语的词表征，具体的计算方式可参考公式(3)：

其中，G(w)代表第一目标词语的词表征值，E(w')为第一目标词语的第一表征均值，S_m(w)为与第一目标词语w词形态相近的词语集合，W为可训练的参数矩阵，I为分词所在的位置信息。

实际应用中，在确定与第二目标词语具有关联关系的初始词语之后，可确定第二目标词语在初始词语中的位置，比如，第二目标词语为“水”，与第二目标词语具有关联关系的初始词语有“冰水”、“开水”、“水中”，因此可确定第二目标词语在初始词语中所在的位置信息分别在末位、末位、首位，因此基于该位置信息以及语义信息确定每个与第二目标词语具有关联关系的初始词语的第二权重值，并基于第二表征均值以及第二权重值计算第二目标词语的词表征，具体的计算方式可参考上述公式(3)，在此不做过多赘述。

需要强调的是，相比较仅考虑均值、仅考虑语义因素的权重值以及均值的两种方式，上述第三种方式的精准度较高，且在不同的任务需求中，可选择上述任意一种计算词表征的方式，本实施例对此不做限定。

本说明书实施例提供的文本处理方法，在确定目标词语的词表征的过程中，将注意力机制融入了词语的位置信息，更能准确地表达词语的权重值，以实现更加精准的词表征的计算结果。

上述实施例中的预设表征生成规则，在实际应用中可以为词表征生成器，为了不断强化对目标词语的词表征的计算准确度，还可对预设表征生成规则中的参数进行调整；具体的，所述基于预设表征生成规则计算所述目标词语的词表征之后，还包括：

确定目标词语的词语表征损失值；

基于所述候选词语的词表征确定所述初始文本的候选词表征，基于所述初始词语的词表征确定所述初始文本的初始词表征；

基于所述初始文本的候选词表征以及所述初始文本的初始词表征确定所述初始文本的文本表征损失值；

基于所述词语表征损失值以及所述文本表征损失值，调整所述预设表征生成规则的参数。

其中，目标词语的词语表征损失值可以理解为目标词语通过上述实施例中的计算公式计算的损失值。

其中，初始文本的候选词表征可以理解为由候选词语组成的初始文本的词表征，比如，初始文本为“汽水中含有大量二氧化碳”，其候选词语为“汽”、“水”、“中”、“含有”、“大量”、“二氧化”、“碳”，则初始文本的候选词表征则为上述所有候选词语的词表征。

其中，初始文本的初始词表征可以理解为由初始词语组成的初始文本的词表征，沿用上例，初始词语分别为“汽水”、“中”、“含有”、“大量”、“二”、“氧化”、“碳”，则初始文本的初始词表征则为上述所有初始词语的词表征。

具体的，本实施例计算预设表征生成规则的损失值通过两个方面进行计算，一方面，计算每个目标词语的词语表征损失值，另一方面计算拆分组合后的句子与原始句子之间的损失值，作为原始句子的文本表征损失值(初始文本的文本表征损失值)，并将两个损失值相加，作为该预设表征生成规则的整体损失值，并基于该整体损失值调整预设表征生成规则中相应的参数。

实际应用中，为了降低上述两种损失值，目标词语的词语表征损失值的计算表达式可参考：

初始文本的文本表征损失值的计算方式可参考：

进而，预设表征生成规则的整体损失值：

本说明书实施例提供的文本处理方法，通过计算目标词语的损失值，以及目标词语所在文本的表征值与初始词语的表征值的损失值，进而确定该预设表征生成规则的整体损失值，以实现对预设表征生成规则中参数的调整，提高预设表征生成规则的计算准确度。

基于上述对目标词语的词表征的确定，还可以将该目标词语以及目标词语的词表征更新至初始词表中，以实现初始词表适应于第二应用场景；具体的，所述基于预设表征生成规则计算所述目标词语的词表征之后，还包括：

基于场景需求从所述初始词表中确定备选词语，并基于所述备选词语和/或所述目标词语形成目标词表；或

将所述目标词语添加至所述初始词表，获得目标词表。

实际应用中，确定目标词表的方式可以有两种，一种可根据场景需求，从初始词表中确定出符合该场景需求的备选词语，并将根据上述实施例确定的目标词语和/或该备选词语，共同组成目标词表；该种方式确定的目标词表不仅能够满足场景需求，也便于后续训练适应于应用场景的模型；另一种可将上述实施例确定的目标词语均添加至初始词表中，进而获得目标词表，该种方式形成了既能适用于第一应用场景也能适用于第二应用场景的目标词表，即基于该目标词表，在第一应用场景下也可以实现文本处理，在第二应用场景下也可实现相应的文本处理；需要说明的是，本实施例提供的文本处理方法对目标词表的确定方式不仅有上述两种方式，在此不做任何限定。

通过上述实施例对本说明书提供的文本处理方法的介绍，可以看出词表征迁移过程就是形成目标词表的过程，目的是对初始词表进行处理，进而能够形成与不同应用场景相关联的词表，以适应更多的应用场景，参见图2，图2示出了本说明书实施例提供的文本处理方法实现词表征迁移的示意图。

图2中的第一行为原始词表征(初始词语的词表征)，原初始文本为“汽水中含有大量二氧化碳”，则每个初始词语为初始文本随机划分的，每个初始词语的词表征可分别表示为E(汽水)、E(中)、E(含有)、E(大量)、E(二)、E(氧化)、E(碳)，则在基于上述初始词语的词表征进行模型训练时，可对初始词语的词表征进行编码处理，训练预训练模型(文本处理模型)。图2中的最后一行为词表征迁移示意过程，对初始文本进行随机拆分或合并之后的候选词语对应的词表征，每个候选词语的词表征可分别表示为G(汽)、G(水)、E(中)、E(含有)、E(大量)、G(二氧化)、E(碳)，由此可知，初始词语的词表征中并没有G(汽)、G(水)以及G(二氧化)的词表征，因此在对词表迁移的过程中，需要计算出目标词语“汽”、“水”以及“二氧化”的词表征，进而可基于上述目标词语的词表征计算方式计算G(汽)、G(水)以及G(二氧化)，再将目标词语的词表征输入至预训练模型的作为训练数据，即将目标词语以及目标词语的词表征作为训练数据，以实现对训练好的文本处理模型能够适应于另一应用场景。

基于此，在基于预设表征生成规则可对目标词语计算出词表征之后，可实现对模型的训练；具体的，所述基于预设表征生成规则计算所述目标词语的词表征之后，还包括：

确定所述初始词语的词表征；

基于所述初始词语、所述初始词语的词表征、所述目标词语以及所述目标词语的词表征训练目标文本处理模型。

实际应用中，预训练模型可确定初始文本中每个初始词语的词表征，且上述确定目标词语的方式以及上述计算目标词语的词表征的方式，可应用于此实施例中，在此不做赘述，具体实施方式可参考上述实施例，基于此，可基于初始词语、初始词语的词表征、目标词语以及目标词语的词表征训练目标文本处理模型，该目标文本处理模型可采用无监督数据训练获得，也可采用有监督的训练数据获得，本实施例对此不做任何限定。

本说明书实施例提供的文本处理方法，通过确定出的目标词语、目标词语的词表征以及初始词语、初始词语的词表征，训练文本处理模型，该种方式能够让模型在实际项目场景中灵活选用特定的词表，进而提升模型在项目场景中的效果。

进一步地，所述基于所述初始词语、所述初始词语的词表征、所述目标词语以及所述目标词语的词表征训练目标文本处理模型，包括：

基于所述初始词语、所述初始词语的词表征训练初始文本处理模型；

将所述目标词语以及所述目标词语的词表征输入至所述初始文本处理模型，对所述初始文本处理模型进行训练，获得目标文本处理模型。

实际应用中，预训练模型的过程中，基于初始词语以及初始词语的词表征即可训练初始文本处理模型，该初始文本处理模型可能仅适应于小部分的应用场景，也可能会存在对部分特定领域专有名词或是句子过度切分等问题，导致初始文本处理模型对文本处理的效果较差，且不具有通用性，基于此，在对初始文本进行重新随机拆分或者合并，获得与初始词语不同的目标词语之后，本实施例可利用词表征生成器这个工具计算目标词语的词表征，进而将目标词语以及目标词语的词表征输入初始文本处理模型中，对初始文本处理模型进行训练，最后获得目标文本处理模型。基于该种方式，可根据不同的项目场景、数据需要提取各自所需的目标词表，进而实现项目专有模型，而使用该项目专有模型在项目场景数据下进行训练，得到可实际交付的目标文本处理模型。

本说明书实施例提供的文本处理方法，通过对初始文本处理模型进行训练，进而获得目标文本处理模型，以便于后续通过目标文本处理模型适应于不同项目场景下的文本处理，基于本说明书实施例提供的文本处理方法提出的词表迁移方法，可以将模型词表便捷地替换成针对项目场景优化的词表，同时也让单一的预训练模型快速地转换为特定项目专有模型的优势。

下述结合附图3，以本说明书提供的文本处理方法在文本处理模型的应用为例，对所述文本处理方法进行进一步说明。其中，图3示出了本说明书一个实施例提供的一种文本处理方法的模型应用示意图。

图3可分为两大部分，第一部分为预训练部分，第二部分为模型应用部分，为了便于理解，本实施例以模型为文本处理模型为例进行说明。

首先在预训练部分，通过预训练数据对预训练模型进行训练，其中，预训练数据可以理解为文本语句，基于预训练模型的中间层将该文本语句拆分为至少两个初始词语，如图3中划分后的初始词语“记者”、“工作者”、“摩托”、“作者”以及“车”，将上述初始词语输入至预训练部分的表征生成器，该表征生成器对上述文本语句再次进行随机拆分或者合并处理，处理后的文本语句可确定出至少两个候选词语，将候选词语与初始词语进行匹配，可确定出目标词语为“者”以及“摩托车”，进而该表征生成器对目标词语“者”以及“摩托车”计算相应的词表征，同时，可将该目标词语添加至模型应用部分的词表中，获得适用于项目场景的目标词表，其中，目标词表的获得方式有两种，一种是可基于项目场景需求，从预训练部分的初始词表中筛选出符合该项目场景需求的词语，该词语和目标词语共同构成目标词表，另一种是将目标词语融入初始词表中的所有词语中，获得目标词表；图3中的下游数据可以理解为不同应用场景下的项目数据，下游模型可以理解为针对目标词表对预训练模型进行调整的文本处理模型，以适用于该项目场景，实际应用中，在下游模型获取到目标词表之后，即可以对下游数据进行文本处理，利用词表征生成器计算目标词表中的目标词语的词表征，进而实现后续的模型对下游数据的处理过程，需要说明的是，词表征生成器生成词表征的过程可以看作为模型中的某一层所执行的过程，也可为独立于模型的一个表征生成器工具所执行的过程，本实施例对此不做过多限定。

本说明书实施例提供的文本处理方法，通过确定适用于项目场景的目标词语，并借助词表征生成器计算该目标词语的词表征，进而训练适用于项目场景的文本处理模型，应用于对项目数据的文本处理，提高文本处理的准确率以及处理效率。

与上述方法实施例相对应，本说明书还提供了文本处理装置实施例，图4示出了本说明书一个实施例提供的一种文本处理装置的结构示意图。如图4所示，该装置包括：

确定模块402，被配置为在初始词表中确定初始文本的初始词语；

获得模块404，被配置为基于预设处理规则对所述初始文本进行处理，获得处理后的初始文本的候选词语；

比对模块406，被配置为将所述初始词语与所述候选词语进行比对，将与所述初始词语不匹配的候选词语作为目标词语；

计算模块408，被配置为基于预设表征生成规则计算所述目标词语的词表征。

可选地，所述装置，还包括：

训练模块，被配置为确定所述初始词语的词表征；

可选地，所述装置，还包括：

获得模块，被配置为基于场景需求从所述初始词表中确定备选词语，并基于所述备选词语和/或所述目标词语形成目标词表；或

将所述目标词语添加至所述初始词表，获得目标词表。

可选地，所述训练模块，进一步被配置为：

可选地，所述获得模块404，进一步被配置为：

可选地，所述装置，还包括：

表征均值确定模块，被配置为确定第一目标词语中每个分词的词表征，并基于所述每个分词的词表征确定第一表征均值；和/或

可选地，所述计算模块408，进一步被配置为：

基于所述第二表征均值计算所述第二目标词语的词表征。

可选地，所述计算模块408，进一步被配置为：

可选地，所述装置，还包括：

调整模块，被配置为确定目标词语的词语表征损失值；

本说明书实施例提供的文本处理装置，通过将初始文本的初始词语与处理后的初始文本中的候选词语进行比对，筛选出初始词语与候选词语不匹配的目标词语，进而基于预设表征生成规则，能够计算出对初始文本处理后中的目标词语的词表征，便于后续适应于不同的应用场景对初始文本中的目标词语的词表征的需求，通过该种方式，不仅能够获得该初始文本中的更多词语的词表征，还便于后续基于目标词语、目标词语的词表征以及初始词表中满足场景需求的初始词语训练文本处理模型，使得文本处理模型效果增强，同时也能适应不同应用场景的需求。

上述为本实施例的一种文本处理装置的示意性方案。需要说明的是，该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思，文本处理装置的技术方案未详细描述的细节内容，均可以参见上述文本处理方法的技术方案的描述。

图5示出了根据本说明书一个实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接，数据库550用于保存数据。

计算设备500还包括接入设备540，接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图5所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。

其中，处理器520用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的文本处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述文本处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文本处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述文本处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述文本处理方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的文本处理方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述文本处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种文本处理方法，包括：

在初始词表中确定初始文本的初始词语；

基于预设表征生成规则计算所述目标词语的词表征。

2.根据权利要求1所述的文本处理方法，所述基于预设表征生成规则计算所述目标词语的词表征之后，还包括：

确定所述初始词语的词表征；

3.根据权利要求1所述的文本处理方法，所述基于预设表征生成规则计算所述目标词语的词表征之后，还包括：

将所述目标词语添加至所述初始词表，获得目标词表。

4.根据权利要求2所述的文本处理方法，所述基于所述初始词语、所述初始词语的词表征、所述目标词语以及所述目标词语的词表征训练目标文本处理模型，包括：

5.根据权利要求1所述的文本处理方法，所述基于预设处理规则对所述初始文本进行处理，获得处理后的初始文本的候选词语，包括：

6.根据权利要求1-5任意一项所述的文本处理方法，所述基于预设表征生成规则计算所述目标词语的词表征之前，还包括：

7.根据权利要求6所述的文本处理方法，所述基于预设表征生成规则计算所述目标词语的词表征，包括：

基于所述第二表征均值计算所述第二目标词语的词表征。

8.根据权利要求6所述的文本处理方法，所述基于预设表征生成规则计算所述目标词语的词表征，包括：

9.根据权利要求6所述的文本处理方法，所述基于预设表征生成规则计算所述目标词语的词表征，包括：

10.根据权利要求8所述的文本处理方法，所述基于预设表征生成规则计算所述目标词语的词表征之后，还包括：

确定目标词语的词语表征损失值；

11.一种文本处理装置，包括：

12.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述文本处理方法的步骤。

13.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述文本处理方法的步骤。

14.一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1至10任意一项所述文本处理方法的步骤。