CN116842168A

CN116842168A - 跨领域问题处理方法、装置、电子设备及存储介质

Info

Publication number: CN116842168A
Application number: CN202311105721.4A
Authority: CN
Inventors: 任梦星; 刘迎建; 彭菲; 吴雅萱
Original assignee: Hanwang Technology Co Ltd
Current assignee: Hanwang Technology Co Ltd
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-10-03
Anticipated expiration: 2043-08-30
Also published as: CN116842168B; WO2025044865A1

Abstract

本申请公开了一种跨领域问题处理方法、装置、电子设备及存储介质，属于自然语言处理技术领域。所述方法包括：通过基于预设各领域的领域词库和预先训练的文本分类模型，对输入问题进行问题分类处理，获取所述输入问题的领域分类结果；之后，以所述领域分类结果和所述输入问题作为预设语言处理模型的输入，通过所述预设语言处理模型获取所述输入问题对应的答案。本方法可以有效提高预设语言处理模型问答的准确性。

Description

跨领域问题处理方法、装置、电子设备及存储介质

技术领域

本申请涉及自然语言处理技术领域，特别是涉及跨领域问题处理方法、装置、电子设备，以及计算机可读存储介质。

背景技术

在自然语言处理（NLP）领域，随着深度学习技术的发展，基于Transformers（如ChatGPT、ChatGLM等）的预设语言处理模型，即大模型，取得了显著的成功，这些预设语言处理模型依靠大量的文本数据进行训练，使其具备了强大的生成能力和理解能力，然而，尽管这些预设语言处理模型能够生成流畅且看似合理的文本，但它们可能会生成不准确甚至误导性的信息，使得预设语言处理模型的落地变得较为困难。

现有技术中常用的文本分类方法包括：利用深度学习相关技术来实现文本分类的方法，以及，基于规则实现文本分类的方法。其中，利用深度学习相关技术来实现文本分类的方法（例如基于BERT实现分类），包括较大的模型参数，导致分类速度较慢，并且训练数据集规模较大，训练过程占用资源较多且时间较长，对于分类模型的快速迭代和实时应用构成了限制。而基于规则实现文本分类的方法通常需要手动编写规则，使得在处理新的未见样本时泛化能力不强，并且难以处理复杂语义和语言变化，另一方面，该方法基于通常基于一些显式规则进行分类，无法捕捉隐含的语义和上下文信息。

发明内容

本申请实施例提供一种跨领域问题处理方法及装置、电子设备及存储介质，能够促进预设语言处理模型落地，提升预设语言处理模型整体问答的准确性。

第一方面，本申请实施例提供了一种跨领域问题处理方法，包括：

基于预设各领域的领域词库和预先训练的文本分类模型，对输入问题进行问题分类处理，获取所述输入问题的领域分类结果；

以所述领域分类结果和所述输入问题作为预设语言处理模型的输入，通过所述预设语言处理模型获取所述输入问题对应的答案。

第二方面，本申请实施例提供了一种跨领域问题处理装置，包括：

问题分类模块，用于基于预设各领域的领域词库和预先训练的文本分类模型，对输入问题进行问题分类处理，获取所述输入问题的领域分类结果；

问题解答模块，用于以所述领域分类结果和所述输入问题作为预设语言处理模型的输入，通过所述预设语言处理模型获取所述输入问题对应的答案。

第三方面，本申请实施例提供了一种跨领域问题处理方法，包括：

基于预设各领域的领域词库对输入问题进行关键词匹配，得到所述输入问题命中各所述领域词库中关键词的第一指标值，以及，命中的关键词所属子领域；

通过预设第一分类模型对所述输入问题进行分类，得到所述输入问题匹配各所述领域的第二指标值；

根据所述第一指标值和所述第二指标值，确定所述输入问题匹配的目标领域；

通过所述目标领域对应的预设第二分类模型对所述输入问题进行分类，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值；

根据所述第三指标值和所述命中的关键词所属子领域，对所述输入问题在所述子领域进行分类，获取所述输入问题的领域分类结果。

第四方面，本申请实施例提供了一种跨领域问题处理装置，包括：

关键词匹配模块，用于基于预设各领域的领域词库对输入问题进行关键词匹配，得到所述输入问题命中各所述领域词库中关键词的第一指标值，以及，命中的关键词所属子领域；

第一分类模块，用于通过预设第一分类模型对所述输入问题进行分类，得到所述输入问题匹配各所述领域的第二指标值；

第一分类结果确定模块，用于根据所述第一指标值和所述第二指标值，确定所述输入问题匹配的目标领域；

第二分类模块，用于通过所述目标领域对应的预设第二分类模型对所述输入问题进行分类，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值；

分类结果获取模块，用于根据所述第三指标值和所述命中的关键词所属子领域，对所述输入问题在所述子领域进行分类，获取所述输入问题的领域分类结果。

第五方面，本申请实施例还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的跨领域问题处理方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本申请实施例公开的跨领域问题处理方法的步骤。

本申请实施例公开的跨领域问题处理方法，通过基于预设各领域的领域词库对输入问题进行关键词匹配，得到所述输入问题命中各所述领域词库中关键词的第一指标值，以及，命中的关键词所属子领域；通过预设第一分类模型对所述输入问题进行分类，得到所述输入问题匹配各所述领域的第二指标值；根据所述第一指标值和所述第二指标值，确定所述输入问题匹配的目标领域；通过所述目标领域对应的预设第二分类模型对所述输入问题进行分类，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值；根据所述第三指标值和所述命中的关键词所属子领域，对所述输入问题在所述子领域进行分类，获取所述输入问题的领域分类结果，可以快速针对输入问题进行跨领域分类，并具有较高的分类准确度。

另一方面，本申请实施例还公开了一种跨领域问题处理方法，通过基于预设各领域的领域词库和预先训练的文本分类模型，对输入问题进行问题分类处理，获取所述输入问题的领域分类结果；之后，以所述领域分类结果和所述输入问题作为预设语言处理模型的输入，通过所述预设语言处理模型获取所述输入问题对应的答案，可以有效提高预设语言处理模型问答的准确性。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例公开的跨领域问题处理方法流程图之一；

图2是本申请实施例公开的跨领域问题处理方法中第一分类模型和第二分类模型的结构示意图；

图3是本申请实施例公开的跨领域问题处理方法流程图之二；

图4是本申请实施例公开的跨领域问题处理方法流程图之三；

图5是本申请实施例公开的跨领域问题处理方法中一分类步骤流程示意图；

图6是本申请实施例公开的跨领域问题处理装置的结构示意图之一；

图7是本申请实施例公开的跨领域问题处理装置的结构示意图之二；

图8示意性地示出了用于执行根据本申请的方法的电子设备的框图；以及

图9示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中还公开了一种跨领域问题处理方法，如图1所示，所述方法包括：步骤110和步骤120。

步骤110，基于预设各领域的领域词库和预先训练的文本分类模型，对输入问题进行问题分类处理，获取所述输入问题的领域分类结果；

步骤120，以所述领域分类结果和所述输入问题作为预设语言处理模型的输入，通过所述预设语言处理模型获取所述输入问题对应的答案。

本申请实施例中所述的预设语言处理模型可以为现有技术中的跨领域的预设语言处理模型。例如，基于如ChatGPT、ChatGLM等的大模型。所述预设语言处理模型支持根据用户输入的问题文本，输出相应的答案。

可选的，预设各领域可以包括：教育、医疗、法律等业务领域。所述预设各领域与所述预设语言处理模型支持的业务领域匹配。例如，当所述预设语言处理模型为基于教育、医疗、法律三个业务领域的数据训练的模型时，即所述预设语言处理模型支持教育、医疗、法律三个业务领域的知识问答，则预设各领域包括：教育、医疗、法律三个领域。

本申请的实施例中，对于预设各领域，需要预先为每个领域单独构建领域词库。所述领域词库中包含该领域的关键词，以及各关键词所属子领域。构建各领域的领域词库的具体实施方式，参见下文描述，此处不再著赘述。

本申请的实施例中，预先训练的文本分类模型为轻量级文本分类模型，同时具备处理大量文本分类、处理未知文本分类的能力，并且，具有较高的分类准确度和分类速度。

本申请的一些实施例中，所述文本分类模型的训练数据基于所述预设语言处理模型的训练数据集，进行微调后得到。所述文本分类模型可以采用两阶段分类模型，第一阶段采用的文本分类模型（即预设第一分类模型）用于将输入问题分类到某个业务领域，第二阶段的文本分类模型（即预设第二分类模型）用于将输入问题分类到该业务领域的某一子领域分类内。

其中，每阶段的文本分类模型，即预设第一分类模型和预设第二分类模型，可以采用如图2所示的结构。如图2所示，所述预设第一分类模型和预设第二分类模型分别包括：字向量编码子模型210、词向量编码子模型220，以及，文本分类子模型230。

其中，所述字向量编码子模型可以采用FastText编码模型，所述词向量编码子模型可以采用Word2Vec编码模型，所述文本分类子模型可以采用TextCNN 模型。

所述文本分类模型的结构和训练方法参见下文描述，此处不再赘述。

可选的，所述文本分类模型包括：预设第一分类模型和预设第二分类模型，所述基于预设各领域的领域词库和预先训练的文本分类模型，对输入问题进行问题分类处理，获取所述输入问题的领域分类结果，包括：基于预设各领域的领域词库对输入问题进行关键词匹配，得到所述输入问题命中各所述领域词库中关键词的第一指标值，以及，命中的关键词所属子领域；通过所述预设第一分类模型对所述输入问题进行分类，得到所述输入问题匹配各所述领域的第二指标值；根据所述第一指标值和所述第二指标值，确定所述输入问题匹配的目标领域；通过所述目标领域对应的所述预设第二分类模型对所述输入问题进行分类，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值；根据所述第三指标值和所述命中的关键词所属子领域，对所述输入问题在所述子领域进行分类，获取所述输入问题的领域分类结果。

基于预设各领域的领域词库对输入问题进行关键词匹配，得到所述输入问题命中各所述领域词库中关键词的第一指标值，以及，命中的关键词所属子领域的具体实施方式参见下文描述，此处不再赘述。

可选的，通过预设第一分类模型对所述输入问题进行分类，得到所述输入问题匹配各所述领域的第二指标值，包括：对所述输入问题进行字向量编码，得到第一向量；对所述输入问题进行词向量编码，得到第二向量；融合所述第一向量和所述第二向量，得到第三向量；基于所述第三向量进行文本分类处理，得到所述输入问题匹配各预设领域的第二指标值。

具体举例而言，所述通过预设第一分类模型对所述输入问题进行分类，得到所述输入问题匹配各所述领域的第二指标值包括：通过字向量编码子模型210对所述输入问题进行字向量编码，得到第一向量；通过词向量编码子模型220对所述输入问题进行词向量编码，得到第二向量；通过所述文本分类子模型230融合所述第一向量和所述第二向量，得到第三向量，并基于所述第三向量进行文本分类处理，得到所述输入问题匹配各预设领域的第二指标值。

对所述输入问题进行字向量编码，得到第一向量的具体实施方式参见下文描述，此处不再赘述。

对所述输入问题进行词向量编码，得到第二向量的具体实施方式参见下文描述，此处不再赘述。

融合所述第一向量和所述第二向量，得到第三向量的具体实施方式参见下文描述，此处不再赘述。

基于所述第三向量进行文本分类处理，得到所述输入问题匹配各预设领域的第二指标值的具体实施方式参见下文描述，此处不再赘述。

可选的，根据所述第一指标值和所述第二指标值，确定所述输入问题匹配的目标领域，包括：

采用预设权重值对所述第一指标值和所述第二指标值进行加权求和，得到对应各预设领域的匹配度得分；

将所述匹配度得分最高的所述预设领域，确定为所述输入问题匹配的目标领域。

采用预设权重值对所述第一指标值和所述第二指标值进行加权求和，得到对应各预设领域的匹配度得分，以及，将所述匹配度得分最高的所述预设领域，确定为所述输入问题匹配的目标领域的具体实施方式参见下文描述，此处不再赘述。

可选的，通过所述目标领域对应的所述预设第二分类模型对所述输入问题进行分类，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值，包括：对所述输入问题进行字向量编码，得到第四向量；对所述输入问题进行词向量编码，得到第五向量；融合所述第四向量和所述第五向量，得到第六向量；基于所述第六向量进行文本分类处理，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值。

具体举例而言，所述通过所述目标领域对应的所述预设第二分类模型对所述输入问题进行分类，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值包括：通过字向量编码子模型210对所述输入问题进行字向量编码，得到第四向量；通过词向量编码子模型220对所述输入问题进行词向量编码，得到第五向量；通过文本分类子模型230融合所述第四向量和所述第五向量，得到第六向量，以及，基于所述第六向量进行文本分类处理，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值。

对所述输入问题进行字向量编码，得到第四向量的具体实施方式，参见下文描述，此处不再赘述。

对所述输入问题进行词向量编码，得到第五向量的具体实施方式，参见下文描述，此处不再赘述。

融合所述第四向量和所述第五向量，得到第六向量的具体实施方式，参见下文描述，此处不再赘述。

基于所述第六向量进行文本分类处理，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值的具体实施方式，参见下文描述，此处不再赘述。

以及，根据所述第三指标值和所述命中的关键词所属子领域，对所述输入问题在所述子领域进行分类，获取所述输入问题的领域分类结果的具体实施方式参见下文描述，此处不再赘述。

可选的，通过以下方法构建所述领域词库：

对于目标预设领域，采用以下一种或多种关键词提取方法获取所述目标预设领域的关键词：基于预设规则从样本文本中抽取第一关键词；采用词语拼接的方式从样本文本中提取长尾关键词，作为第二关键词；对预设长尾关键词的子词进行聚类，获取目标子词作为第三关键词；根据所述第一关键词、所述第二关键词和所述第三关键词中的一种或多种关键词，构建所述目标预设领域的领域词库。

基于预设规则从样本文本中抽取第一关键词的具体实施方式，参见下文描述，此处不再赘述。

可选的，所述采用词语拼接的方式从样本文本中提取长尾关键词，作为第二关键词，包括：按照预设符号和文本长度，对样本文本进行句子划分，得到待处理句子；对得到的所述待处理句子进行分词处理，得到候选分词；对所述候选分词进行筛选和词性标注，得到预设词性的目标候选分词；根据所述目标候选分词，拼接得到名词性短语，作为候选长尾关键词；获取所述候选长尾关键词的重要程度评分；根据所述重要程度评分，选择所述候选长尾关键词，作为第二关键词。

采用词语拼接的方式从样本文本中提取长尾关键词，作为第二关键词的本步骤的具体实施方式，参见下文描述，此处不再赘述。

对预设长尾关键词的子词进行聚类，获取目标子词作为第三关键词的具体实施方式，参见下文描述，此处不再赘述。

根据所述第一关键词、所述第二关键词和所述第三关键词中的一种或多种关键词，构建所述目标预设领域的领域词库的具体实施方式，参见下文描述，此处不再赘述。

在前述步骤110中，可以首先将用户的输入问题，基于预设各领域的领域词库和预先训练的文本分类模型，进行前置分类处理，得到输入问题所属业务领域的子领域，之后，将该子领域信息和输入问题共同作为预设语言处理模型的输入，由预设语言处理模型结合输入问题，以及输入问题所述子领域，输出答案。

所述预设语言处理模型根据输入的问题文本，获取对应答案的具体实施方式为现有技术，本申请实施例中不再赘述。

本申请实施例公开的一种跨领域问题处理方法，通过基于预设各领域的领域词库和预先训练的文本分类模型，对输入问题进行问题分类处理，获取所述输入问题的领域分类结果；之后，以所述领域分类结果和所述输入问题作为预设语言处理模型的输入，通过所述预设语言处理模型获取所述输入问题对应的答案，可以有效提高预设语言处理模型问答的准确性。

进一步的，本方法通过前置分类算法，首先准确地将用户问题分类到具体的领域，然后，再进一步将用户问题分到该领域的子领域，这样能够减少分类错误。通过精确的分类，预设语言处理模型可以根据该子领域的知识内容进行问题理解和解答，避免生成无关的内容，从而提高整体问答的准确性，使得预设语言处理模型应用的落地成为了可能。层级问题分类与问答系统的引入，能够使得用户的问题得到更准确、更全面的回答，提升用户使用体验和满意度。

本申请实施例中采用的文本分类模型，可以快速对用户输入问题进行分类，并且具有高准确度。利用预设第一分类模型输出的分类标签，可以直接调用相应的行业领域的预设第二分类模型模型，得到子领域分类结果。接着，基于子领域分类结果，预设语言处理模型可以查询对应行业领域下的子领域知识库，从而实现快速结果输出。通过这一流程，预设语言处理模型能够更高效地应对问题，提升工作效率，加强了预设语言处理模型的专业性和准确性。

本申请实施例通过引入高效的文本分类模型，以便对用户输入的问题进行精准分类。这个分类过程不仅仅是为了将问题归入不同的类别，更重要的是为大型模型的进一步处理提供了有力支撑。通过对问题进行准确的分类，并根据分类结果有针对性地调用大型模型中相应的模块，从而在问答环境中提高准确性。

本申请的实施例中，文本分类模型是为了增强大型模型的问答准确性而服务的。通过将问题进行精细分类，使得大型模型能够更有效地集中精力于特定问题领域，从而提升整体问答准确度。通过引入文本分类技术，为大型模型的优化提供了关键支持，为解决实际应用中的问答难题打下了坚实基础。

本申请实施例还公开了一种跨领域问题处理方法，如图3所示，所述方法包括：步骤310至步骤350。

步骤310，基于预设各领域的领域词库对输入问题进行关键词匹配，得到所述输入问题命中各所述领域词库中关键词的第一指标值，以及，命中的关键词所属子领域。

可选的，所述第一指标值可以为所述输入问题命中各所述领域词库中关键词的的数量。

本申请具体实施时，首先需要根据预设语言处理模型的问答需求，构建相应领域的领域词库。如图4所示，基于预设各领域的领域词库对输入问题进行关键词匹配，得到所述输入问题命中各所述领域词库中关键词的第一指标值，以及，命中的关键词所属子领域之前，还包括：

步骤300，构建各预设领域的领域词库。

所述领域词库中包括：相应领域的关键词，以及，各关键词所属子领域。

例如，对于支持法律领域、医疗领域、教育领域等专业领域的预设语言处理模型，首先预先构建相应专业领域的领域词库。每个所述领域词库中包括该领域词库对应专业领域的若干关键词。例如，对于法律领域的领域词库，其中可以包括法律法规的名称、罪名等。又例如，对于医疗领域的领域词库，其中可以包括如：药品名称、疾病名称、典型症状名称、医疗机构名称等。

进一步的，在应用过程中，对于指定领域词库，可以将输入问题与该指定领域词库中的关键词进行比对，以确定该输入问题命中该指定领域词库中的关键词的列表，以及命中的各关键词所属子领域。通过统计列表中命中的关键词所述子领域，可以进一步确定命中该指定领域词库对应领域的各子领域的关键词，将该领域中各子领域命中的关键词的数量累加，即得到命中该领域的关键词的数量，作为第一指标值。

在本申请的一些实施例中，可以采用包含匹配的方式确定输入问题命中的关键词。例如，当输入问题文本包含领域词库中的某个关键词D1时，即可认为输入问题命中该关键词D1。又例如，当领域词库中的某个关键词D2包含输入问题文本时，即可认为输入问题命中该关键词D2。

具体实施时，可以根据实际匹配精度需要，设置关键词命中判断标准。本申请的实施例中，对输入问题与某个预设领域的领域词库进行关键词匹配的具体实施方式不做限定。

为了提升关键词匹配的准确度，以及后续分类的准确度，构建内容丰富、准确的领域词库起着重要作用。本申请的实施例中，通过以下方法构建所述领域词库：对于目标预设领域，采用以下一种或多种关键词提取方法获取所述目标预设领域的关键词：基于预设规则从样本文本中抽取第一关键词；采用词语拼接的方式从样本文本中提取长尾关键词，作为第二关键词；对预设长尾关键词的子词进行聚类，获取目标子词作为第三关键词；根据所述第一关键词、所述第二关键词和所述第三关键词中的一种或多种关键词，构建所述目标预设领域的领域词库。

本申请实施例中的样本文本可以选自于用于训练预设语言处理模型的分类问题数据集。

下面分别对上述各种关键词提取方法进行举例说明。

（一）基于预设规则从样本文本中抽取第一关键词

可选的，所述预设规则可以根据行业领域专业人士给出的行业关键词确定。例如，预设规则可以为基于行业领域专业人士给出的关键词表进行关键词完全匹配。

具体举例而言，对于医疗领域，可以由行业领域专业人士，构造出医疗领域关键词表，例如包括：药典名称、定点医院名称、医院名称、疾病名称，以及领域关键词如：“医保”、医院”、“主任医师”、“专家号”、“疾病”等。之后，对样本文本按照上述预设规则进行关键词抽取，得到第一关键词。例如，对于样本文本：“在哪个网站可以挂到心脑血管疾病的专家号呢”，对于该文本，里面会涉及到3个医疗领域方面的关键词，分别为“心脑血管”、“疾病”和“专家号”，则从该条样本文本中可以抽取出3个第一关键词。

按照上述方法，从若干条样本文本中可以抽取出医疗领域的若干个第一关键词。

同理，通过设置其他领域的关键词表，按照上述方法，可以提取到相应领域的关键词，从而得到该领域的若干第一关键词。

（二）采用词语拼接的方式从样本文本中提取长尾关键词，作为第二关键词

各行业领域通常进一步包括很多子领域，本申请实施例中记为“子领域”。以法律领域为例，其子领域主要包括：婚姻家庭、合同纠纷、知识产权、互联网纠纷、交通事故、债权债务、刑事案件、房产纠纷、继承、医疗纠纷、损害赔偿、征地拆迁等。再以医疗领域为例，其子领域主要包括：眼科、牙科、耳鼻喉科、骨科、消化科、内分泌科、外科、内科、儿科、妇产科等。

由于行业领域数据的特殊性，其子领域涉及到的知识内容有很多比较长的专有词汇，本申请实施例中记为“长尾关键词”，例如，“中华人民共和国个人信息保护法”。传统的关键词抽取方式并不能有效提取出上述长尾关键词。本申请实施例中，提出了采用词语拼接的方式从样本文本中提取长尾关键词的方法，将各行业领域的子领域知识进行整合，并进行关键词抽取。

可选的，采用词语拼接的方式从样本文本中提取长尾关键词，作为第二关键词，包括：子步骤S1至子步骤S6。

子步骤S1，按照预设符号和文本长度，对样本文本进行句子划分，得到待处理句子。

可选的，所述预设符号可以为表示句子结束的标点符号，如句号、问号、感叹号等。所述文本长度根据具体领域确定，例如，所述文本长度可以为20。

例如，可以对样本文本（如分类数据集中的问题文本）按照句号和长度为20对词语进行划分，得到样本文本中包括的一个或多个句子作为待处理句子。

子步骤S2，对得到的所述待处理句子进行分词处理，得到候选分词。

接下来，可以基于自定义字典对待处理句子进行分词处理，得到每个待处理句子中包括的分词，作为候选分词。

子步骤S3，对所述候选分词进行筛选和词性标注，得到预设词性的目标候选分词。

然后，对得到的候选分词进行筛选，所述筛选方法包括但不限于以下一种或多种操作：去除停用词、去除无意义词等。之后，对筛选后保留的候选分词进行词性标注。例如，标注筛选后保留的候选分词为名词或形容词等词性。进一步的，得到标注有名词词性和形容词词性的候选分词，作为目标候选分词。

子步骤S4，根据所述目标候选分词，拼接得到名词性短语，作为候选长尾关键词。

接下来，可以对前一步骤得到的目标候选分词，即名词词性和形容词词性的分词，按照预设规则进行拼接，得到名词性短语。并将拼接得到的名词性短语作为候选长尾关键词。本申请的实施例中，可以利用正则表达式，按照例如：形容词+名词、名词+名词、名词+名词+名词等的形式，将两个或多个目标候选分词，拼接为一个名词语作为，候选长尾关键词。

具体举例而言，对于文本“《中华人民共和国个人信息保护法》是一部在什么时间颁布的法律”，经过分词、对分词进行筛选和词性标注可以得到以下名词和形容词“中华人民共和国”、“个人信息”、“保护法”、“时间”和“法律”，之后，经过名词拼接，可以得到“中华人民共和国个人信息保护法”这一候选长尾关键词。

子步骤S5，获取所述候选长尾关键词的重要程度评分。

接下来，计算各候选长尾关键词相对于原始句子（如分词得到该候选长尾关键词的句子）的重要程度评分。可选的，可以采用如ELMO（Embeddings from Language Models，句子模式的单词向量编码方法）方法计算每个候选长尾关键词的词向量，采用预先训练的如SIF（Smooth Inverse Frequency）模型用来计算原始句子的句向量，然后，通过余弦距离来计算词向量和句向量之间的相似度，作为该候选长尾关键词的重要程度评分。相似度越高，重要程度评分，表示该候选长尾关键词越重要。候选关键词越重要，越能代表所输入文本的意思。

例如，对于原始句子“高中数学中的概率部分知识学习的难点是什么，有什么有效的方法或者学习工具可以辅助学习吗”，其中，“高中数学”、“概率知识”、“学习工具”这些拼接得到的候选长尾关键词得到的重要程度评分较高，可以代表该问题的核心点。

子步骤S6，根据所述重要程度评分，选择所述候选长尾关键词，作为第二关键词。

最后，可以选择所述重要程度评分满足预设条件的候选长尾关键词，作为第二关键词。例如，可选选择重要程度评分最高的N个候选长尾关键词，作为第二关键词。其中，N可以为大于1的整数，可以根据实际情况取不同的数值。

（三）对预设长尾关键词的子词进行聚类，获取目标子词作为第三关键词

可选的，所述预设长尾关键词可以是采用上述方法提取的长尾关键词，也可以是采用其他方法得到的长尾关键词。

在行业领域内，非专业用户的问题往往不包含完整的专业术语。由于长尾关键词的长尾效应，这些关键词在现有的词库中可能不存在。然而，专业用户所提出的问题通常涉及大量的专业术语，这些术语往往属于长尾词汇。为了有效处理这些长尾词汇，本申请实施例中，通过对组成长尾关键词的子词进行聚类，获取构成长尾关键词的核心子词，从而提升专业用户提出问题的分类准确度。

可选的，对预设长尾关键词的子词进行聚类，获取目标子词作为第三关键词包括：获取构成预设长尾关键词的子词；对所述子词按照语义相似度聚类，得到一个或多个子词簇；根据所述子词簇中包括的子词数量和词性，选择子词簇中的子词，作为第三关键词。

本申请的一些实施例中，可以通过子词聚类的方法，获取构成长尾关键词的核心子词。例如，可以首先通过对组成长尾关键词的子词进行文本预处理，去除特殊字符、停用词、多余的标点符号。然后，利用词向量编码方法（例如word2vec方法）将各个预处理后的子词转成词向量。例如，为了便于后续聚类分析，可以使用主成分分析（PCA）方法将词向量的空间降至二维，随后将降维后的二维数据作为聚类算法（如k-means聚类算法）的输入，并执行聚类操作，最终得到子词的聚类结果，即一个或多个子词簇。接下来，可以选择包括子词数量大于预设数量阈值的子词簇中的子词，作为第三关键词；或者，可以选择包括子词数量大于预设数量阈值的子词簇中的名词，作为第三关键词。

经过聚类，得到的聚类结果是一些子词，比如组成长尾关键词的子词分别为：[化脓性，结膜炎]、[严重的，眼睑炎]，对这些词汇进行聚类，会得到：眼睑炎、结膜炎等子词。这些组成长尾关键词的子词由于其语义相似性就聚类到一起，进一步的，可以将这些聚类得到的子词中的名词作为一部分关键词，即第三关键词。

之后，可以将通过上述3种方法获取领域X的第一关键词、第二关键词和第三关键词，全部作为该领域X的关键词，加入到领域X的领域词库中。按照前述方法，可以构建预设语言处理模型对应问题的各个领域的领域词库。

本申请的实施例中，还需要为每个第一关键词设置子领域属性，用于标记关键词所属子领域。例如，对于医疗领域，其包括的子领域有：眼科、牙科、消化科等。在构建每个领域的领域词库时，可以同时为该领域词库中的每个关键词设置子领域属性，用于标记各关键词所属子领域。例如，为关键词“近视”、“散光”、“白内障”、“眼睑炎”、“睑板腺炎”、“结膜炎”、“干眼症”设置子领域属性值为“眼科”，为关键词“蛀牙”、“《牙髓病学》”、“牙龈炎”设置子领域属性值为“牙科”。

以医疗领域的里关于词库为例，其中包括的关键词可以如下表所示。

表1，医疗领域的领域词库中的关键词

本申请的实施例中，通过对预设词性的词语进行拼接，得到长尾关键词，可以提升领域专业人士提出的问题的分类准确度。例如，当用户输入问题“《中华人民共和国个人信息保护法》中是否包括个人网络信息相关的保护条例”时，可以准确匹配到长尾关键词“中华人民共和国个人信息保护法”，从而分类该问题为法律领域问题。

另一方面，通过对长尾关键词的子词进行聚类，提取第三关键词构建领域词库，可以提升非专业人士提出的问题的分类准确度。例如，将采用第二种方法得到的长尾关键词“中华人民共和国刑事诉讼法”的子词进行聚类之后，可以得到第三关键词“刑事”、“讼法”，加入到法律领域的领域词库中。这样，法律领域的领域词库中既包括长尾关键词“中华人民共和国刑事诉讼法”，又包括第三关键词“刑事”、“讼法”。在问题分类时，对于法律领域的专业人士，提问问题中可能包含了一个比较长的专有词汇，如：“你知道《中华人民共和国刑事诉讼法》是什么时候颁布的吗”，此时，通过将输入问题与领域词库中的长尾关键词（即前述第二关键词）进行匹配，可以命中“中华人民共和国刑事诉讼法”，从而将该问题分类到法律领域；对于普通用户来说，输入的问题更口语化，如：“刑事法律是什么时候颁布的呢”，此时，通过将输入问题与领域词库中的关键词进行匹配，可以命中“刑事”，从而将该问题分类到法律领域。

步骤320，通过预设第一分类模型对所述输入问题进行分类，得到所述输入问题匹配各所述领域的第二指标值。

本申请实施例中使用的预设第一分类模型和预设第二分类模型需要预先训练、

如图3所示，基于预设各领域的领域词库对输入问题进行关键词匹配，得到所述输入问题命中各所述领域词库中关键词的第一指标值，以及，命中的关键词所属子领域之前，还包括：

步骤301，训练预设第一分类模型和预设第二分类模型。

训练预设第一分类模型和预设第二分类模型的具体实施方式参见下文描述，此处不赘述。

本申请实施例中对步骤300和步骤301的执行顺序不做限制。

另一方面，基于文本特征对所述输入问题进行分类，得到所述输入问题匹配各所述领域的第二指标值。

可选的，如图5所示，所述通过预设第一分类模型对所述输入问题进行分类，得到所述输入问题匹配各所述领域的第二指标值，包括：子步骤3201、子步骤3202、子步骤3203和子步骤3204。

子步骤3201，对所述输入问题进行字向量编码，得到第一向量。

子步骤3202，对所述输入问题进行词向量编码，得到第二向量。

子步骤3203，融合所述第一向量和所述第二向量，得到第三向量。

子步骤3204，基于所述第三向量进行文本分类处理，得到所述输入问题匹配各预设领域的第二指标值。

可选的，所述通过预设第一分类模型对所述输入问题进行分类，得到所述输入问题匹配各所述领域的第二指标值包括：通过字向量编码子模型210对所述输入问题进行字向量编码，得到第一向量；通过词向量编码子模型220对所述输入问题进行词向量编码，得到第二向量；通过所述文本分类子模型230融合所述第一向量和所述第二向量，得到第三向量，并基于所述第三向量进行文本分类处理，得到所述输入问题匹配各预设领域的第二指标值。

如图2所示，所述预设第一分类模型包括：字向量编码子模型210、词向量编码子模型220，以及，文本分类子模型230

字向量编码是一种将字映射到连续向量表示的技术，考虑到由于分类数据的多样性、复杂性以及海量性，本申请实施例中采用基于FastText实现字符向量编码，该技术能够捕捉到字符级别的信息，有助于捕获词内部的结构，例如词缀和形态变化，并理解字的意义和语境。并且，FastText的训练非常快速，尤其是在大规模语料上具有较好的计算效率。

同时字向量编码技术可以更好地处理稀有词和未登录词（即未在训练数据中出现的词），具有更好的泛化能力，由于FastText编码模型使用字符级别的信息，它能够更有效地处理低频词和未登录词。这意味着FastText编码模型可以为这些词生成合理的向量表示，而其他基于词级别的方法可能无法做到这一点。在实际业务中涉及到的文本内容领域特别广泛，也存在很多低频未登录词，字向量编码技术可有效解决该问题。

除此之外，基于FastText的字符向量编码可以支持多语言，由于字符级别的表示具有普适性，FastText编码模型可以容易地应用于不同语言的文本表示，特别是那些词汇结构丰富的语言。

本申请的一些实施例中，FastText编码模型结构可以包括：输入层、隐藏层、输出层三部分，其中，输入层为文本中的词语和词语的N-Gram Feature的向量，隐藏层主要是将输入层输入的隐层向量进行求平均，输出层直接输出输入文本的编码值，作为第一向量。其中，N表示切分原词的长度，N可以自定义，例如，N可以取值为3。词语的N-Gram Feature的生成方法参见现有技术，此处不再赘述。

在应用阶段，在前述子步骤3201中，将输入问题输入至FastText编码模型，所述FastText编码模型将输出输入问题的第一向量。

上述基于FastText编码模型实现字向量编码，仍有一些缺陷，比如：相较于词向量，字向量在捕捉词义关系方面的能力可能略显不足。

Word2Vec词向量编码是将词映射到一个语义空间，得到的语义空间向量的技术。Word2Vec编码模型通常借用神经网络的方式实现，考虑文本的上下文关系，有两种模型CBOW和Skip-Gram，这两种模型在训练的过程中类似。Skip-Gram模型是用一个词语作为输入，来预测它周围的上下文，CBOW模型是用一个词语的上下文作为输入，来预测这个词语本身。Skip-Gram对于大型数据训练速度及处理效果更好，本实施例结合实际业务需求，选取Skip-Gram这种方式来实现词向量表示，具体处理步骤如下：

（1）确定窗口大小window，对每个词生成2window个训练样本，(i,i-window)，(i,i-window+1)，...，(i,i+window-1)，(i,i+window)，其中，i表示窗口编号。

（2）确定样本数量batch_size，注意batch_size的大小必须是2window的整数倍，以确保每批样本包含一个词汇对应的所有样本。

（3）训练算法有两种：层次Softmax和Negative Sampling。

（4）神经网络迭代训练一定次数，得到输入层到隐藏层的参数矩阵，矩阵中每一行的转置即是对应词的词向量。

在应用阶段，在前述子步骤3202中，将输入问题输入至预先训练的Word2Vec词向量编码子模型，获取Word2Vec词向量编码子模型输出的词向量，作为第二向量。

接下来，在前述子步骤3203中，可以将第一向量（即字向量）和第二向量（即词向量）进行拼接，得到第三向量。

将FastText模型输出的字向量（即前述第一向量）和Word2Vec模型输出的词向量（即前述第二向量）进行合并，可以提供更为丰富的语义信息，即词向量和字向量分别从单词和字符级别捕捉语义信息，将它们结合起来有助于提供更丰富的语义信息，从而提高自然语言处理任务的性能。同时，字向量和词向量合并后，可弥补各自的不足。具体而言，词向量在处理未登录词和低频词方面表现不佳，而字向量在捕捉词义关系方面相对较弱。合并输入问题的字向量和词向量，可以弥补它们各自的缺点，提供更准确和全面的文本表示。

对于较为复杂的多行业子领域的分类任务来说，将字向量和词向量合并，有利于提高模型分类的准确性，具有更强的鲁棒性。例如，结合了字向量和词向量的模型在处理拼写错误、语法错误或未登录词时具有更强的鲁棒性，从而提高分类任务在实际应用中的稳定性和可靠性。除此之外，由于训练数据中有较多长尾词，故具有长尾问题（在文本分类任务中，长尾问题指的是部分类别样本数量远小于其他类别），而将字向量和词向量二者结合则可以提高模型对这些低频词和稀有类别的识别能力，从而改善长尾问题。

总之，将字向量和词向量结合使用可以为文本分类任务带来更丰富的语义信息、更好的泛化能力和更强的鲁棒性，从而提高分类任务的性能。

本申请的一些实施例中，TextCNN模型可以包括：嵌入层、卷积层、池化层和输出层。其中，嵌入层用于将Word2Vec模型输出的词向量与FastText模型输出的字向量进行拼接，得到输入问题文本的第三向量。

TextCNN模型的卷积层用于对第三向量进行卷积运算，所述池化层用于对卷积层输出的隐层向量进行池化操作，最后，输出层对池化层输出的隐层向量进行特征映射，并输出预设类别的类别标签以及该类别对应的分类预测概率值。

在前述子步骤3204中，通过TextCNN模型的卷积层、池化层和输出层，对合并后的第三向量进行分类映射，得到所述输入问题匹配各预设类别的分类预测概率值，各预设类别的分类预测概率值即可作为相应类别对应的预设领域的第二指标值。

为了使通过预设第一分类模型对所述输入问题进行分类，得到所述输入问题匹配各所述领域的第二指标值的方案更加清楚，本下面结合图2对预设第一分类模型的训练过程进行说明。

本申请实施例中所使用的字向量编码子模型210、词向量编码子模型220，以及，文本分类子模型230可以基于各领域预设语言处理模型所用到的训练数据进行微调后得到。基于包含多个领域数据的数据集，训练预设第一分类模型。其中，训练预设第一分类模型的样本数据为问题文本，样本标签为该问题文本对应的领域类别真实值。

具体举例而言，首先，对用户输入的问题进行分类，使其映射到对应的行业领域，例如，对于用户问题“眼睛很痛，好像得了眼睑炎，应该怎么办呢”，显然此问题属于医疗领域的问题，应由医疗领域的预设语言处理模型对其问题进行回复，因此需要对医疗大模型训练的QA（问答对）数据集进行处理，使其作为分类的数据集。

在处理医疗领域的QA数据集时，首先需要对其内部的问题和答案进行拆分，将其分别视为训练数据的一部分。然后，在对数据进行处理之前，需要进行预处理和数据清洗操作，包括但不限于：去除噪音，如不相关的信息或干扰性的文本、去除停用词和标点符号等无关紧要的内容。之后，可以根据数据清洗之后的文本作为样本数据，并为该样本标注对应医疗领域的样本标签。

类似地，针对法律领域、教育领域等预设领域，也需要进行相应的数据处理和预处理步骤，最终得到各领域的分类数据集。例如，分类数据集的样本标签可以包括对应医疗、法律、教育领域的标签值。

在预设第一分类模型训练过程中，对于分类数据集中的每条训练样本，首先通过字向量编码子模型210对该训练样本中的输入问题进行字向量编码，得到第一向量；通过词向量编码子模型220对该训练样本中的输入问题进行词向量编码，得到第二向量；通过文本分类子模型230将所述第一向量和所述第二向量进行拼接，得到第三向量；之后，基于所述第三向量进行文本分类处理，得到该训练样本中的输入问题输入问题匹配各预设领域的概率值；之后，根据该概率值和该训练样本的样本标签，计算该训练样本的分类损失。之后，根据所有训练样本的分类损失，计算预设第一分类模型的损失值，并以所述损失值最小为目标，优化模型参数，对所述预设第一分类模型进行迭代训练。

本申请实施例中，对计算模型损失值的损失函数不做限定。

本申请实施例中所采用的字向量编码子模型210、词向量编码子模型220，以及，文本分类子模型230可以采用现有技术中的模型结构，所述预设第一分类模型的损失函数可以采用现有技术。

步骤330，根据所述第一指标值和所述第二指标值，确定所述输入问题匹配的目标领域。

本申请的一些实施例中，根据所述第一指标值和所述第二指标值，确定所述输入问题匹配的目标领域，包括：采用预设权重值对所述第一指标值和所述第二指标值进行加权求和，得到对应各预设领域的匹配度得分；将所述匹配度得分最高的所述预设领域，确定为所述输入问题匹配的目标领域。

例如，可以将前述步骤310得到的第一指标值及前述步骤320得到的第二指标值，按照预先设置权重值，通过公式：score₁= α₁* 第一指标值 + β₁* 第二指标值，分别计算得到输入问题匹配各预设领域的匹配度得分score₁。其中，权重值α₁和β₁根据命中的关键词的数量（即第一指标值）和第一分类模型输出结果的重要程度预先设置。例如，在认为关键词的重要程度更高时，可以设置α₁大于β₁。

最后，综合匹配度得分score₁, 匹配度得分最大，代表相应类别即为判别的目标类别。

步骤340，通过所述目标领域对应的预设第二分类模型对所述输入问题进行分类，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值。

在确定输入的问题匹配的领域之后，进一步进行领域细分。例如，当将输入问题分类到医疗领域之后，进一步细分该输入问题属于医疗领域的哪个子领域。

可选的，所述通过所述目标领域对应的预设第二分类模型对所述输入问题进行分类，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值，包括：对所述输入问题进行字向量编码，得到第四向量；对所述输入问题进行词向量编码，得到第五向量；融合所述第四向量和所述第五向量，得到第六向量；基于所述第六向量进行文本分类处理，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值。

可选的，所述预设第二分类模型的结构如图2所示，包括：字向量编码子模型210、词向量编码子模型220，以及，文本分类子模型230。其中，所述字向量编码子模型可以采用FastText编码模型，所述词向量编码子模型可以采用Word2Vec编码模型，所述文本分类子模型可以采用TextCNN 模型。

本申请的实施例中，针对每个预设领域，根据该预设领域的数据，预先分别训练该领域的子领域分类模型，即预设第二分类模型。这样，在应用阶段，当输入问题经过初步领域分类，分类到目标领域之后，可以通过目标领域的子领域分类模型，即基于该目标领域的数据训练的预设第二分类模型，进一步对输入问题进行该目标领域内的子领域分类。

预设第二分类模型的训练数据来源于各行业领域内的细分类知识库数据，以及预设第二分类模型的训练数据进行微调后的数据。对这些数据进行处理的过程可参照前文处理预设第二分类模型的训练数据的具体方式，此处不再赘述。

例如，将各领域的子领域涉及到的知识文本等进行处理，比如法律领域中子领域：医疗纠纷、合同纠纷、损害赔偿等领域知识，将其构造为法律领域的各子领域的分类数据集，并为每条训练样本设置法律领域的子领域标签，例如，法律领域的子领域标签包括：刑事案件、劳务纠纷、合同纠纷等。然后，基于FastText+Word2Vec+TextCNN 结构的预设第二分类模型实现法律领域中子领域分类。

预设第二分类模型的训练方法，参加前文预设第一分类模型的训练方法，此处不再赘述。

相应的，所述通过所述目标领域对应的预设第二分类模型对所述输入问题进行分类，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值包括：通过字向量编码子模型210对所述输入问题进行字向量编码，得到第四向量；通过词向量编码子模型220对所述输入问题进行词向量编码，得到第五向量；通过文本分类子模型230融合所述第四向量和所述第五向量，得到第六向量，以及，基于所述第六向量进行文本分类处理，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值。

通过所述目标领域对应的预设第二分类模型对所述输入问题进行分类，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值的具体实施方式，可参见前文通过预设第一分类模型对所述输入问题进行分类，得到所述输入问题匹配各所述领域的第二指标值的具体实施方式，此处不再赘述。

步骤350，根据所述第三指标值和所述命中的关键词所属子领域，对所述输入问题在所述子领域进行分类，获取所述输入问题的领域分类结果。

可选的，所述根据所述第三指标值和所述命中的关键词所属子领域，对所述输入问题在所述子领域进行分类，获取所述输入问题的领域分类结果，包括：根据所述命中的关键词所属子领域，获取输入问题命中各所述子领域中关键词的第四指标值；采用预设权重值对所述第三指标值和所述第四指标值进行加权求和，得到对应各子领域的匹配度得分；根据所述匹配度得分，确定所述输入问题在所述目标领域的子领域中的分类结果。

接下来，根据步骤310中获取的输入问题命中的关键词所属子领域，进一步确定输入问题命中每个子领域的关键词的数量，作为输入问题命中该子领域中关键词的第四指标值。然后，可以将前述步骤340得到的第三指标值及第四指标值，按照预先设置的权重值，通过公式：score₂= α₂* 第四指标值 + β₂* 第三指标值，分别计算得到输入问题匹配各子领域的匹配度得分score₂。其中，权重值α₂和β₂根据命中的关键词的数量和第二分类模型输出结果的重要程度预先设置。例如，在认为关键词的重要程度更高时，可以设置α₂大于β₂。

最后，综合匹配度得分score₂, 确定所述输入问题在所述目标领域的子领域中的分类结果。例如，可以选择匹配度得分最大值对应的子领域，作为输入问题匹配的目标类别。

本申请实施例还公开了一种跨领域问题处理装置，如图6所示，所述装置包括：

问题分类模块610，用于基于预设各领域的领域词库和预先训练的文本分类模型，对输入问题进行问题分类处理，获取所述输入问题的领域分类结果；

问题解答模块620，用于以所述领域分类结果和所述输入问题作为预设语言处理模型的输入，通过所述预设语言处理模型获取所述输入问题对应的答案。

可选的，所述文本分类模型包括：预设第一分类模型和预设第二分类模型，所述问题分类模块610，进一步用于：

通过所述预设第一分类模型对所述输入问题进行分类，得到所述输入问题匹配各所述领域的第二指标值；

通过所述目标领域对应的所述预设第二分类模型对所述输入问题进行分类，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值；

可选的，所述通过所述预设第一分类模型对所述输入问题进行分类，得到所述输入问题匹配各所述领域的第二指标值，包括：

对所述输入问题进行字向量编码，得到第一向量；

对所述输入问题进行词向量编码，得到第二向量；

融合所述第一向量和所述第二向量，得到第三向量；

基于所述第三向量进行文本分类处理，得到所述输入问题匹配各预设领域的第二指标值。

可选的，通过以下方法构建所述领域词库：

对于目标预设领域，采用以下一种或多种关键词提取方法获取所述目标预设领域的关键词：基于预设规则从样本文本中抽取第一关键词；采用词语拼接的方式从样本文本中提取长尾关键词，作为第二关键词；对预设长尾关键词的子词进行聚类，获取目标子词作为第三关键词；

根据所述第一关键词、所述第二关键词和所述第三关键词中的一种或多种关键词，构建所述目标预设领域的领域词库。

可选的，所述采用词语拼接的方式从样本文本中提取长尾关键词，作为第二关键词，包括：

按照预设符号和文本长度，对样本文本进行句子划分，得到待处理句子；

对得到的所述待处理句子进行分词处理，得到候选分词；

对所述候选分词进行筛选和词性标注，得到预设词性的目标候选分词；

根据所述目标候选分词，拼接得到名词性短语，作为候选长尾关键词；

获取所述候选长尾关键词的重要程度评分；

根据所述重要程度评分，选择所述候选长尾关键词，作为第二关键词。

可选的，所述根据所述第一指标值和所述第二指标值，确定所述输入问题匹配的目标领域，包括：

本申请实施例公开的跨领域问题处理装置，用于实现本申请实施例中所述的跨领域问题处理方法，装置的各模块的具体实施方式不再赘述，可参见方法实施例相应步骤的具体实施方式。

本申请实施例公开的跨领域问题处理装置，通过基于预设各领域的领域词库和预先训练的文本分类模型，对输入问题进行问题分类处理，获取所述输入问题的领域分类结果；之后，以所述领域分类结果和所述输入问题作为预设语言处理模型的输入，通过所述预设语言处理模型获取所述输入问题对应的答案，可以有效提高预设语言处理模型问答的准确性。

进一步的，在进行文本分类时，通过基于预设各领域的领域词库对输入问题进行关键词匹配，得到所述输入问题命中各所述领域词库中关键词的第一指标值，以及，命中的关键词所属子领域；通过预设第一分类模型对所述输入问题进行分类，得到所述输入问题匹配各所述领域的第二指标值；根据所述第一指标值和所述第二指标值，确定所述输入问题匹配的目标领域；通过所述目标领域对应的预设第二分类模型对所述输入问题进行分类，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值；根据所述第三指标值和所述命中的关键词所属子领域，对所述输入问题在所述子领域进行分类，获取所述输入问题的领域分类结果，可以快速针对输入问题进行跨领域分类，并具有较高的分类准确度。

本申请实施例还公开了一种跨领域问题处理装置，如图7所示，所述装置包括：

关键词匹配模块710，用于基于预设各领域的领域词库对输入问题进行关键词匹配，得到所述输入问题命中各所述领域词库中关键词的第一指标值，以及，命中的关键词所属子领域；

第一分类模块720，用于通过预设第一分类模型对所述输入问题进行分类，得到所述输入问题匹配各所述领域的第二指标值；

第一分类结果确定模块730，用于根据所述第一指标值和所述第二指标值，确定所述输入问题匹配的目标领域；

第二分类模块740，用于通过所述目标领域对应的预设第二分类模型对所述输入问题进行分类，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值；

分类结果获取模块750，用于根据所述第三指标值和所述命中的关键词所属子领域，对所述输入问题在所述子领域进行分类，获取所述输入问题的领域分类结果。

可选的，所述第一分类模块720，进一步用于：

对所述输入问题进行字向量编码，得到第一向量；

对所述输入问题进行词向量编码，得到第二向量；

融合所述第一向量和所述第二向量，得到第三向量；

可选的，通过以下方法构建所述领域词库：

对得到的所述待处理句子进行分词处理，得到候选分词；

获取所述候选长尾关键词的重要程度评分；

可选的，所述第一分类结果确定模块730，进一步用于：

本申请实施例公开的跨领域问题处理装置，通过基于预设各领域的领域词库对输入问题进行关键词匹配，得到所述输入问题命中各所述领域词库中关键词的第一指标值，以及，命中的关键词所属子领域；通过预设第一分类模型对所述输入问题进行分类，得到所述输入问题匹配各所述领域的第二指标值；根据所述第一指标值和所述第二指标值，确定所述输入问题匹配的目标领域；通过所述目标领域对应的预设第二分类模型对所述输入问题进行分类，得到所述输入问题匹配所述目标领域的预设各子领域的第三指标值；根据所述第三指标值和所述命中的关键词所属子领域，对所述输入问题在所述子领域进行分类，获取所述输入问题的领域分类结果，可以快速针对输入问题进行跨领域分类，并具有较高的分类准确度。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请提供的一种跨领域问题处理方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其一种核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本申请实施例的电子设备中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图8示出了可以实现根据本申请的方法的电子设备。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。该电子设备传统上包括处理器810和存储器820及存储在所述存储器820上并可在处理器810上运行的程序代码830，所述处理器810执行所述程序代码830时实现上述实施例中所述的方法。所述存储器820可以为计算机程序产品或者计算机可读介质。存储器820可以是诸如闪存、EEPROM（电可擦除可编程只读存储器）、EPROM、硬盘或者ROM之类的电子存储器。存储器820具有用于执行上述方法中的任何方法步骤的计算机程序的程序代码830的存储空间8201。例如，用于程序代码830的存储空间8201可以包括分别用于实现上面的方法中的各种步骤的各个计算机程序。所述程序代码830为计算机可读代码。这些计算机程序可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘（CD）、存储卡或者软盘之类的程序代码载体。所述计算机程序包括计算机可读代码，当所述计算机可读代码在电子设备上运行时，导致所述电子设备执行根据上述实施例的方法。

本申请实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例所述的跨领域问题处理方法的步骤。

这样的计算机程序产品可以为计算机可读存储介质，该计算机可读存储介质可以具有与图8所示的电子设备中的存储器820类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩存储在所述计算机可读存储介质中。所述计算机可读存储介质通常为如参考图9所述的便携式或者固定存储单元。通常，存储单元包括计算机可读代码830’，所述计算机可读代码830’为由处理器读取的代码，这些代码被处理器执行时，实现上面所描述的方法中的各个步骤。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本申请的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种跨领域问题处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述文本分类模型包括：预设第一分类模型和预设第二分类模型，所述基于预设各领域的领域词库和预先训练的文本分类模型，对输入问题进行问题分类处理，获取所述输入问题的领域分类结果，包括：

3.一种跨领域问题处理方法，其特征在于，所述方法包括：

4.根据权利要求3所述的方法，其特征在于，所述通过预设第一分类模型对所述输入问题进行分类，得到所述输入问题匹配各所述领域的第二指标值，包括：

对所述输入问题进行字向量编码，得到第一向量；

对所述输入问题进行词向量编码，得到第二向量；

融合所述第一向量和所述第二向量，得到第三向量；

5.根据权利要求3所述的方法，其特征在于，通过以下方法构建所述领域词库：

6.根据权利要求5所述的方法，其特征在于，所述采用词语拼接的方式从样本文本中提取长尾关键词，作为第二关键词，包括：

对得到的所述待处理句子进行分词处理，得到候选分词；

获取所述候选长尾关键词的重要程度评分；

7.根据权利要求3所述的方法，其特征在于，所述根据所述第一指标值和所述第二指标值，确定所述输入问题匹配的目标领域，包括：

8.一种跨领域问题处理装置，其特征在于，所述装置包括：

9.一种跨领域问题处理装置，其特征在于，所述装置包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码，其特征在于，所述处理器执行所述程序代码时实现权利要求1至7任意一项所述的跨领域问题处理方法。

11.一种计算机可读存储介质，其上存储有程序代码，其特征在于，该程序代码被处理器执行时实现权利要求1至7任意一项所述的跨领域问题处理方法的步骤。