CN114997288B

CN114997288B - 一种设计资源关联方法

Info

Publication number: CN114997288B
Application number: CN202210557335.8A
Authority: CN
Inventors: 于树松; 郭保琪; 刘晓菲; 石硕; 丁香乾; 杨宁; 刘国敬; 牛迪
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2024-10-15
Anticipated expiration: 2042-05-19
Also published as: CN114997288A

Abstract

本发明公开了一种设计资源的语义分析方法中，对众包设计资源构建多级语义模型，接着将结构化的文本映射到语义空间，在语义空间中进行层次聚类，在语义空间实施聚类时，将向量内积最大化变换为等价的欧式距离最小化，之后自底向上层次化的对向量空间中的点依据相互之间的距离进行凝聚式聚类，不需要估计初始的聚类数及类别中心，是一种适合在语义空间进行聚类的算法，并能得到层次化的语义资源分布结构，而且聚类速度快，只需要扫描一遍数据集就可以建立聚类树，聚类后可以得到语义的簇标号，每个标号代表一个语义接近的更细致的分类，使得本发明基于层次聚类实现了设计资源的关联和精细化分类管理。

Description

一种设计资源关联方法

技术领域

本发明属于计算机数据处理技术领域，具体地说，是涉及一种众包设计资源的语义关联分析方法。

背景技术

众包设计资源在互联网众包平台上大多以文字、数字、图像数据混合表达，而众包服务自组织的特点使得设计资源之间的相关内容存在很大差异，要管理好设计资源，需要对其所涉及的相关服务内容进行结构化处理。

结构化处理后，众包设计资源的聚合是实现设计资源动态关联挖掘的基础，个性化众包平台利用语义关联技术，实现众包平台内外部资源语义层面的深度聚合，不仅可以使众包平台有价值的信息被挖掘，提升众包平台提供个性化服务的能力，也是众包平台开展个性化服务的必要环节。

关联挖掘是从大规模数据中挖掘对象之间的隐含关系的方法。其可以揭示数据中隐藏的关联模式，帮助人们进行市场运作、决策支持等，它反映一个对象与其他对象间的相互依存性和关联性。如果两个或多个对象之间存在一定的关联关系，那么就能够通过其他对象预测到关联对象。

众包设计资源的关联挖掘则更多地体现在如何将分散、无序的资源进行整理，通过聚类的方式形成一定的关联。众包设计资源的关联挖掘，不仅可以使用户推送信息更加智能化，摆脱传统关键字匹配带来的精准度低的问题，而且更有利于商户将设计资源进一步优化，形成新的更加细致的分类，提高资源的利用率。

目前，众包资源分类大部分采用用户自主选择结合人工打标签的方法，需要预先指定分类名称，且粒度较粗，一般只能做到一级分类，命名采用主谓/谓宾的动名词组合短语，各分类之间没有有序的关系。但是，对于复杂的功能描述信息，直接归属在一个一级分类下，不易体现其功能特性，并且如果一个服务有多种功能类别，则很难界定属于哪一个类别。

现有资源分类模型是根据资源的功能描述将具有某种特性或属性的资源进行聚合，按照特征或属性区分不同的资源，分为以下两种：1、树状结构的资源分类模型：此模型是采用数字或字母的形式，按照分类编码的一般原则与方法，对众包资源进行统一的分类和编码，具有层次性和系统性的特点，可以确定任一资源在体系中的位置与相互关系；2、关键词结构的资源分类模型：此模型采用关键词或标签等方式进行资源的属性或特征的表征和描述，这里的关键词或者标签往往是各资源提供方独立编制，不易在互联网中资源分享。

发明内容

本发明提出一种设计资源关联方法，分析现有资源分类体系的不足，构建多级语义模型、提取语义链，使用预训练的BERT模型将文本映射到语义空间，在语义空间中进行分层次聚类，根据层次聚类实现设计资源的关联和精细化分类管理。

本发明采用以下技术方案予以实现：

提出一种设计资源关联方法，包括：

对众包设计资源构建多级语义模型；

将多级语义模型的语义链映射到语义空间；

将向量内积最大等价为欧式距离最小，在语义空间中对设计资源语义文本进行层次化聚类；

基于层次化聚类结果对设计资源进行关联；

其中，构建多级语义模型包括：

(1))遍历设计资源找到核心动谓词，以检测到的广义动宾关系得到一级语义；所述广义动宾关系包括直接宾语关系、间接宾语关系、前置宾语关系、核心动谓词与其支配的名词短语为状中关系、核心动谓词与其支配的名词短语为主谓关系、当核心动谓词的宾语缺失时以定中关系表达的修饰词；

(2)对一级语义中的谓词中心词和宾语中心词检测其修饰成分得到二级语义；

(3)对二级语义的中心词检测其修饰成分得到三级语义；

(4)将检测到的高于三级的语义成分补全到其隶属的中心词上。

进一步的，对众包设计资源构建多级语义模型，具体为：

步骤1、将众包设计资源短句进行词分隔和词性标注；

步骤2、将步骤1处理后的短句切分为多个独立短句；

步骤3、针对每个独立短句进行以下处理：

1)依存关系分析；

2)以并列关系和独立结构提取独立短句中的独立功能成分；

3)针对每个独立功能成分构建多级语义模型。

进一步的，以并列关系和独立结构关系提取独立短句中的独立功能成分，包括：

(1)当检测到的并列关系位于广义宾语修饰区域时，以核心动谓词为基础同等划分为两个独立功能成分；

(2)当检测到的并列关系位于核心动谓词之间时，同等划分为两个独立功能成分；

(3)当并列关系和独立结构同时存在时，若独立结构是动词性谓语且存在并列关系时，以所述独立结构的动词性谓语为基础同等划分为两个独立功能成分；若独立结构非动词性谓语时，不建立独立功能成分。

进一步的，针对每个独立功能成分构建多级语义模型，包括：当检测到一级语义不存在核心宾语时，将其修饰部分视为其宾语，构建到一级语义中。

进一步的，将多级语义模型的语义链映射到语义空间采用映射模型实现，所述映射模型由嵌入层、中文BERT模型层和平均池化层构成；所述嵌入层进行词向量和位置向量的嵌入操作，通过相加得到复合形式的嵌入矩阵；其中，词向量的嵌入操作中采用停止符“[STOP]”对输入序列进行掩码操作。

进一步的，将向量内积最大等价为欧式距离最小，包括：

预设一个值U<1，U为可调的超参数，0.8≤U≤1，计算

x为语义向量；S是语义向量集合；

对每个语义向量X_i∈S都除以V，得到

对任一语义向量引入两种变换方法：

变换P(x)追加m项和变换Q(x)追加m个“1/2”，即

以及能得到

基于上面三个展开项，得到

左边代表原有的向量内积最大化，右边代表欧式距离最小化；

这样当进行任意向量q和x_i的相似度比较时，为固定项，当m较大时可看出即得到

与现有技术相比，本发明的优点和积极效果是：本发明提出的设计资源关联方法中，将众包设计资源短句分词、进行词性标注、划分独立短句、针对每个独立短句划分独立功能成分、针对每个独立功能成分构建多级语义模型，从而将非结构化的自然语言短句描述转换为结构化的关系集合，实现了众包设计资源的统一建模，接着将结构化的文本映射到向量空间，得到向量形式的语义表征，在语义空间中进行层次聚类，基于层次聚类实现了设计资源的关联和精细化分类管理。

在语义空间实施聚类时，将向量内积最大化变换为等价的欧式距离最小化，之后自底向上层次化的对向量空间中的点依据相互之间的距离进行凝聚式聚类，不需要估计初始的聚类数及类别中心，是一种适合在语义空间进行聚类的算法，并能得到层次化的语义资源分布结构，而且聚类速度快，只需要扫描一遍数据集就可以建立聚类树，聚类后可以得到语义的簇标号，每个标号代表一个语义接近的更细致的分类。

结合附图阅读本发明实施方式的详细描述后，本发明的其他特点和优点将变得更加清楚。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提出的设计资源关联方法的步骤示意；

图2为本发明中对众包设计资源进行结构化处理的步骤示意图；

图3为本发明中划分独立短句的划分示意图之一；

图4为本发明中划分独立短句的划分示意图之二；

图5为本发明中基于依存关系分析树划分独立短句的划分示意图之三；

图6为本发明中基于依存关系分析树划分独立功能成分的划分示意图之一；

图7为本发明中基于依存关系分析树划分独立功能成分的划分示意图之二；

图8为本发明中基于依存关系分析树划分独立功能成分的划分示意图之三；

图9为本发明中构建多级语义模型的构建步骤示意；

图10为本发明中构建多级语义模型的示意图之一；

图11为为本发明中构建多级语义模型的示意图之二；

图12为本发明中构建多级语义模型的示意图之三；

图13为本发明中构建多级语义模型的示意图之四；

图14为本发明中嵌入层的结构示例；；

图15为为本发明给出的停止符掩码操作的处理示例；

图16为本发明中实现语义向量映射的模型示例；

图17为BERT模型在不同分词器下随着词嵌入维度变化的准确率表现；

图18为本发明中进行分层次聚类的示例；

图19为本发明中对聚类结果降维后的表示示例。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。在上述实施方式的描述中，具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本发明旨在提出一种设计资源关联方法，以互联网众包平台上的文字、数字、图像数据为数据集，基于语义相似度实施聚类，从而实现众包设计资源的关联我挖掘，实现众包设计资源的聚合，可以使众包平台有价值的信息被挖掘，提升众包平台提供个性化服务的能力，也是众包平台开展个性化服务的必要环节。

具体的，如图1所示，本发明提出的设计资源关联方法，包括：

步骤S1：对众包设计资源构建多级语义模型。

本发明将众包设计资源构建为多级语义模型，级别越多语义越丰富，具体的如图2所示，包括如下步骤：

步骤S21：将众包设计资源短句进行词分隔和词性标注。

在汉语中字是词的基本单位，要理解一个短语、一句话的含义要以词为划分，这就要计算机在处理一个文本时首先要对句子进行划词，即自动识别出每一个词并在其中加入边界标记符来分隔词汇。

在实际工程中，常用的方法使用规则算法进行分词，再用统计法加以辅助，这样可以高效准确地将文本分词，也可以兼顾新词和未录入词汇的识别，这就是混合分词法。

例如，对描述一个众包资源功能的短句"各种毛笔字体书写、设计"的分词结果为：[各种,毛笔,字体,书写,、,设计]。

分词之后需要对词性进行标注，词性标注是给句子中的每个词进行词性判定并加以标注，将每个词分为名词、动词、形容词以及助词等等。

在中文中，很多次的词性并不单一，在不同句子中表达了不同的词性，另一方面，多数词往往只有一两个词性，且两个(或多个)词性中有一个词性的使用频率远高于其他。中文词性标注尚无统一的标注标准，两种主流的标注为北大的词性标注集和宾州词性标注集。以下是标注词性的举例：

“各种毛笔字体书写、设计”词性划分结果为：[各种/rz,毛笔/n,字体/n,书写/v,、/w,设计/vn]。

涉及到的词语的词类标记主要有以下几大类：1)名词(n)；2)动词(v)；3)标点(w)；4)形容词(a)；5)连词(c)；6)代词(r)；7)量词(q)；8)其他(o)。更加详细的划分还有：动名词(vn)；不及物动词(vi)；食品(nf)；指示代词(rz)等。

步骤S22：将步骤S21处理后的短句切分为多个独立短句。

在众包网站的设计资源信息中，标点符号十分常见，例如“我可以设计标志图纸产品外形等”、“红酒、食品、实物拍摄”、“首页设计/专业PS抠图/去水印/广告图设计/宝贝描述”，而这些标点符号所发挥的功能多为分割短句，因此本发明通过空格、顿号、逗号、正反斜杠等将短句切分为多个独立短句，没有标点符号划分的短句则无需划分。

例如：

1)用斜杠分割的短语：“网站建设/平面设计/百度排名/微博营销用品质说话！”，分割结果参考图3所示。

2)用空格分割的短语：“食品菜式甜点甜品饮料饮品汽水拍照静物产品拍摄拍照”，分割的结果参考图4所示。

3)用顿号分割的短语：“承接各种宣传册、菜单排版设计”，分割结果如图5所示。

步骤S23：针对每个独立短句进行以下处理：

1、依存关系分析。

依存关系是词与词之间的关系，即一个中心词与其从属词之间的二元非对称关系，一个句子的中心词通常是动词(Verb)，所有其他词依赖于中心词。

在众包资源中主要使用了以下几种句法依存关系：1)并列关系(COO)；2)复合名词(FM)；3)其他名词(QM)；4)直接宾语(VOB)；5)间接宾语(IOB)；6)前置宾语(FOB)；7)状中关系(ADV)；8)主谓关系(SBV)；9)定中关系(ATT)；(10)独立结构(IC)。

各种关系的定义如下：

并列关系(COO)表示“和、与、或”连接的词关系，用于其并列名词或动词的下一步处理，如，“详情页和首页设计”：{(详情页/n–>首页/n，COO)。

复合名词(FM)表示名词修饰名词的关系，用于拆分后做宾语描述动词的作用对象，如，“菜式甜点甜品”：{(菜式/n–>甜点/n，FM)；(甜点/n–>甜品/n，FM)。

其他名词(QM)表示除名词外的其他词性修饰名词的关系，描述了名词的属性，用于细分类，如，“小程序开发”：{(小/a–>程序/n，QM)。

直接宾语(VOB)表示谓语动词后接的直接宾语，直接宾语和前置宾语都会归类为动宾结构，是众包语料中依赖关系的基本关系，如，“送她一束花”：{(送/v–>花/n，VOB)}。

前置宾语(FOB)表示谓语动词前的宾语，如，“小程序开发”：{(程序/n–开发/v，FOB)。

间接宾语(IOB)表示谓语动词后的人称词，在众包语料中偶尔出现，如，“送她一束花”：{(送/v–>她/n，IOB)}，但此结构意义不大，不会在最终的依存关系中出现。

主谓关系(SBV)表示句子中的施动者与动作的关系，如，“我可以帮你……”：{(我/r–>帮/n，SBV)}。

状中关系(ADV)表示动词修饰动词的关系，如，“我可以帮你……”：{(可以/v–>帮/v，ADV)}。

定中关系(ATT)表示定语和中心语的关系，如，“系统安全”：{(系统/n–>安全/adj，ATT)}。

独立结构(IC)，表示连接了两个独立的语义成分，如“网站开发网站建设“：{(网站开发–>网站建设，IC)}。

2、以并列关系和独立结构提取提取独立短句中的独立功能成分。

众包设计资源的功能描述可短可长，复杂的描述通常具有包含多个核心业务功能，也可称之为具有多个独立功能成分，每个成分之间没有任何标点符号分隔，例如：“渗透测试漏洞扫描网站安全检测入侵检测安全测试”，“手机商城网站建设网上购物在线支付购物网站开发”等等，这种描述显示是多项业务功能的集合，对这种描述本发明通过依存关系分析提取独立短句的独立功能成分。

具体的，基于依存关系分析按照并列关系(COO)、独立结构(IC)进行独立功能成分划分，由于COO、IC等关系所处的位置不同，会导致不同的语义关系，本发明按照以下三种情况来划分独立功能成分。

(1)当检测到的并列关系(COO)位于广义宾语修饰区域时，以核心动谓词为基础同等划分为两个独立功能成分。

以“微信和系统安全测试”为例，其依存关系分析树见图6，根据语义的理解，以核心动谓词“测试”为基础，将并列宾语“微信”和“系统”与核心动谓词“测试”同等划分为两个独立功能成分：

独立功能成分1：(其中多级语义的构建将在下面内容中详述)

一级语义：{(测试,安全，(ATT))}

二级语义：{(微信，安全，(ATT))}

独立功能成分2：

一级语义：{(测试,安全，(ATT))}

二级语义：{(系统，安全，(ATT))}

(2)当检测到的并列关系位于核心动谓词之间时，同等划分为两个独立功能成分。

以“渗透测试漏洞扫描网站安全检测入侵检测安全测试”为例，这种描述冗长且不清晰，但依存关系分析树能够表达其中的语义逻辑关系，基于如图7所示的依存关系分析树能够检测到三个核心动谓词“测试1”、“检测”、和“测试2”，其中的测试1、2为同名区分:

两两核心动谓词构成并列关系，均同等划分为2个独立功能成分，在本实施例中即划分出三个独立功能成分：(其中多级语义的构建内容将在下面内容中详述)

独立功能成分1：

一级语义：{(测试1,渗透，(ATT)),(测试1,扫描，(ATT))}

二级语义：(漏洞，扫描，(ATT))

独立功能成分2：

一级语义：{(检测,网站，(ATT),(检测,入侵，(ATT))，(检测,安全，(ATT))}

独立功能成分3：

一级语义：{(测试2,安全，(ATT))}

以“上海公司企业社保开户专业注册记账报税代理经验丰富超值特惠”为例，基于如图8所示的依存分析关系树能够检测到一个核心动谓词“开户”和四个独立结构“注册”、“记账”、“代理”、“经验丰富”和“特惠”，其中，独立结构“注册”、“记账”和“代理”均为动词性谓语且两两为并列关系，则以“注册”、“记账”和“代理”分别为基础同等划分为三个独立结构，共划分出4个独立功能成份，其中，“经验丰富”和“特惠”为非动词性谓语，不建立独立功能成分：

独立功能成分1：

一级语义：{(开户,社保，(SBV))}

二级语义：{(企业，社保，(ATT))}

三级语义：{(上海公司，企业，(ATT))}

独立功能成分2：

一级语义：{(注册,)}

二级语义：{(专业，注册，(ADV))}

独立功能成分3：

一级语义：{(记账,)}

独立功能成分4：

一级语义：{(代理,)}

二级语义：{(报税，代理，(ADV))}

3、针对每个独立功能成分构建多级语义模型。

本发明基于以下预定义构建多级语义模型：

一级语义以动词性谓语为核心词，名词性短语为从属词，通过直接宾语关系(VOB)、间接宾语关系(IOB)、前置宾语关系(FOB)等表达句子的基本语义，一般代表服务资源提供的一项主要功能。

二级语义在一级语义的基础上，对通过状中关系(ADV)、动补关系(CMP)、介宾关系(POB)对各自中心词进行修饰补充说明。

三级语义在二级语义的基础上，对二级语义的中心词继续修饰、补充说明，使得语义更加丰富饱满。

以短语表达的服务资源的自然语言，通过三级语义基本上能够表达资源的全部含义，高于三级的语法成分，可以通过截断或者补全到三级中心词处理。

在构建一级语义时，考虑到依存关系分析的误差，很多从实际语义来看应该是动宾类的关系会被识别为定中(ATT)关系，因此对于一级语义，如果检测到核心动词性谓词与其支配名词短语是ATT关系时，也视作动宾关系。核心动词性谓词与其支配名词短语是主谓(SBV)关系，也视作动宾关系。当核心动词谓语的宾语缺失时，既可能是因为语言本身的表达，也可以是依存关系分析模型本身的误差导致，此种情况下，语义主要由核心谓语及其修饰部分表达，则本发明申请中，以定中(ATT)关系表达的修饰也视作宾语，位于一级的位置。

因此，本发明申请在构建一级语义时，将直接宾语关系、间接宾语关系、前置宾语关系、核心动谓词与其支配的名词短语为状中关系、核心动谓词与其支配的名词短语为主谓关系、当核心动谓词的宾语缺失时以定中关系表达的修饰词统称为广义的动宾关系。之所以这样设计，因为这两种情况下，支配名词都可以被视作受事者角色，和动词性谓词可以联合完整的表示语义，从而获得尽可能一般性的语义表示模型。

则基于上述预定义本发明提出构建多级语义模型的方法，如图9所示，包括：

1、遍历独立功能成分找到核心动谓词，以检测到的广义动宾关系得到一级语义。

这里的广义动宾关系包括直接宾语关系、间接宾语关系、前置宾语关系、核心动谓词与其支配的名词短语为状中关系、核心动谓词与其支配的名词短语为主谓关系、当核心动谓词的宾语缺失时以定中关系表达的修饰词。

2、对一级语义中的谓词中心词和宾语中心词检测其修饰成分得到二级语义。

通过状中关系(ADV)、动补关系(CMP)、介宾关系(POB)对谓语中心词和宾语中心词进行修饰补充说明。

3、对二级语义的中心词检测其修饰成分得到三级语义。

二级语义的中心词有别于一级语义中的谓语中心词和宾语中心词，为二者的修饰补充部分，若修饰补充部分再无其他修饰词则不构建三级语义。

4、将高于三级的语义成分补全到其隶属的中心词上。

整个抽取过程按照依存关系分析树关系弧的反方向自底向上遍历依存关系分析树进行。

以“自制手工护肤品顶级卸妆油”为例，其依存关系分析树见图10，核心动谓词“自制”及其宾语“卸妆油”构成一级语义，二级语义中谓语中心词“自制”再无修饰部分，宾语中心词“卸妆油”的修饰部分“顶级”和“护肤品”够成二级语义，二级语义中的中心词“护肤品”存在修饰部分，则以“护肤品”为中心词构建三级语义，按照前述步骤得到的多级语义模型如下：

一级语义：{(自制，卸妆油，(VOB))}

二级语义：{(顶级，卸妆油，(ATT))，(护肤品，卸妆油，(ATT))}

三级语义：{(手工，护肤品，(ATT))}

可见，一级语义反映了该服务资源的主要功能，二、三级语义则是对核心词的修饰部分。

在实际应用中，单个独立功能成分的资源描述虽然只有一个核心业务功能，但也分为以下两种情况：

(1)一级存在核心宾语

以“低价出租临时网络空间”为例，通过依存关系分析得到语法树如图11所示，给出其多级语义模型为：

一级语义：{(出租，网络空间，(VOB))}

二级语义：{(低价，出租，(ADV))，(临时，网络空间，(ATT))}

(2)一级不存在核心宾语

上述提到过，核心动词谓语的宾语缺失，既可能是因为语言本身的表达，也可以是依存关系分析本身的误差导致。此种情况下，语义主要由核心谓语及其修饰部分表达，本发明中以定中(ATT)关系表达的修饰仍视作宾语，位于一级语义的位置。

以“网站安全检测”为例，其依存关系分析树如图12所示，其多级语义模型为：

一级语义：{(检测，安全，(ATT))}

二级语义：{(网站，安全，(ATT))}

基于上述本发明提出的众包设计资源的语义分析方法，将众包设计资源短句分词、进行词性标注、划分独立短句、针对每个独立短句划分独立功能成分、针对每个独立功能成分构建多级语义模型，从而将非结构化的自然语言短句描述转换为结构化的关系集合，实现了众包设计资源的统一建模，对后续的检索、匹配都具有重要的意义。

最后，以“手机商城网站建设网上购物在线支付购物网站开发”为例对本发明提出的众包设计资源的语义分析方法进行应用得到结构化的关系集合，依存关系分析树见图13，结构化处理包括：

1、对该短句进行分词、词性标注。

2、对1处理后的短句通过空格、顿号、逗号和正反斜杆将短句切分为多个独立短句；

该短句没有空格、顿号、逗号和正反斜杠，故这一步跳过，可将其整体视为一个独立短句。

3、针对该独立短句进行依存关系分析。

4、以并列关系和独立结构提取该独立短句中的独立功能成分。

遍历该独立短句，检索到其核心动谓词为“建设”和“开发”，按照并列关系(COO)分别以“建设”和“开发”作为核心动谓词将其划分为两个独立功能成分：独立功能成分1(核心动谓词为“建设”)和独立功能成分2(核心动谓词为“开发”)。

该独立短句中没有独立动词和独立名词等独立结构，故不需要按照独立结构划分独立功能成分。

5、针对每个独立功能成分构建多级语义模型。

针对独立功能成分1，根据广义动宾关系得到其一级语义{(建设,网站1，(ATT))}，针对一级语义中的谓语中心词“建设”和宾语中心词“网站”搜索其修饰部分得到二级语义{(商城，网站1，(ATT))}，针对二级语义中的中心词“商城”检索其修饰部分得到三级语义{(手机，商城，(ATT))}，得到其多级语义模型为：

独立功能成分1：

一级语义：{(建设,网站1，(ATT))}

二级语义：{(商城，网站1，(ATT))}

三级语义：{(手机，商城，(ATT))}

针对独立功能成分2，根据广义动宾关系得到其一级语义{{(开发,网站2，(ATT))}，针对一级语义中的谓语中心词“开发”和宾语中心词“网站”搜索其修饰部分得到二级语义{(网上购物，网站2，(ATT))，(购物，网站2，(ATT))}，针对二级语义中的中心词“购物”检索其修饰部分得到三级语义{{(在线支付，购物，(ADV))}，得到其多级语义模型为：

独立功能成分2：

一级语义：{(开发,网站2，(ATT))}

二级语义：{(网上购物，网站2，(ATT))，(购物，网站2，(ATT))}

三级语义：{(在线支付，购物，(ADV))}

上述的网站1、2为同名区分。

需要说明的是，本发明上述内容中提到的依存关系分析树为语义分析另有的现有分析手段，非本发明限定的技术手段，采用现有方法实现即可支持本发明的语义分析方法。

上述，众包设计资源得到结构化的语义处理后，将结构化的多级语义模型映射到向量空间得到向量形式的语义表征，在语义空间进行层次化聚类，实现众包设计资源的聚合，可以使众包平台有价值的信息被挖掘，提升众包平台提供个性化服务的能力，也是众包平台开展个性化服务的必要环节。

常见的均值聚类算法如K-means算法，虽然效率高，但是初始K值机类中心不易得到；密度聚类算法如DBSCAN对半径、最小点径等参数设置敏感；更为重要的是，这些方法都是针对欧式聚类的，不能直接对语义向量使用，本发明针对该问题，提出的设计资源关联方法首先对语义向量进行变化，使得向量内积最大化变换为等价的欧式距离最小化，然后自底向上层次化的对向量空间中的点依据相互之间的距离进行凝聚式聚类，不需要估计初始的聚类数及类别中心，是一种适合在语义空间进行聚类的方法，并能够得到层次化的语义资源分布结构，而且具备速度快，只需要扫描一遍数据集就可以建立聚类树，聚类后可以得到语义的簇标号，每个标号代表一个语义接近的更细致的分类。

步骤S2：将多级语义模型的语义链映射到语义空间。

将结构化的功能语义文本，也即经过多级语义建模后的语义链映射到向量空间，得到其向量形式的语义表针，便于度量语义距离。

语义表征一般有四种方法，分为传统的语义表征算法、基于浅层嵌入技术的语义表征、基于深度神经网络的语义表征以及注意力机制增强语义表征。传统的语义表征使用独热向量和BOW模型，在独热向量中的值只有0和1，一个单词在维度向量中仅仅对应单词的位为1，其他位置为0，然而这种编码稀疏编码不适用于众包平台，原因是众包平台的词量巨大，相应的特征空间会非常大。浅层嵌入技术也成为分布式表征，其广泛的代表模型有CBOW和连续skip-gram模型，但这些模型忽略了序列问题。深度神经网络语义表征可以处理序列结构，但是处理输入信息较大的文本时会出现梯度消失问题。注意力机制除了能更准确的处理序列，还能在输入及产生的输出之间关注重要的信息。

基于transformer的BERT模型在最近的NLP(自然语言处理)研究中应用广泛。最新的中文BERT采用全词掩蔽(Whole Word Masking，WWM)的策略，能够有效减轻预训练模型在掩蔽词条的标注问题，进一步的广泛实验也证明了全词掩蔽能够显著提升模型的性能。

在本发明中，采用基于中文的BERT来实现语义映射，它由多个深层的双向transformer组件构建而成，从而构成了能够融合左右上下文信息的深层双向语言表征。transformer是一种基于注意力机制的序列建模架构，与传统的基于循环神经网络的模型相比，transformer可以以并行的方式处理处理文本序列中的全局依赖信息，因此transformer具有更高的计算速度。

在本发明中，设计资源语义文本映射的整体结构由嵌入层、基于全词遮蔽的中文BERT模型层和一个平均池化层构成。其中，

嵌入层：该层主要由结构化的功能语义文本进行向量化映射，转换成相应的词向量矩阵，其具体结构参考图14所示。

在转换之前对所有功能语义文本数据进行统计，得到相应的词典，随后，采用预训练好的词向量权重作为模型的嵌入层词向量来进行初始化操作；嵌入层需对文本进行词向量和位置向量的嵌入操作，最终包含两种形式的嵌入，通过相加得到复合形式的嵌入矩阵，并送入到中文BERT模型层。

通过嵌入层得到的输入中文BERT模型层中的输入矩阵最终可以表示为：

事实上，制造业众包平台上的资源文本是具有多个词语、短句组成的资源文本集合，通常表示多项能力，且彼此之间的关联性较弱，因此并不能直接经过向量化操作输入到BERT模型中。为此，本发明实施例中，采用停止符“[STOP]”来对资源文本序列进行掩码操作，从而保证输入到BERT模型中的不是一个连续的长句。

设一条长度为n的设计资源文本序列D＝[w₁,w₂,…,w_n]，其中w_i是第i个词的独热表示。在经过停止符掩码操作后，会被分割成由短语、短句构成的资源文本集合：

D_set＝{[[UNK],w₁,w₂,…[STOP]],…,[…,w_n-1,w_n,[CLS]]} (2)；

其中，[UNK]和[CLS]分别是资源文本起始和结束符。

在执行词向量化操作的时候，资源文本嵌入矩阵也会被停止符掩码操作所影响，即：

X_set＝{[[UNK],x₁,x₂,…[STOP]],…,[…,x_n-1,x_n,[CLS]]} (3)；

其中，X_set是词向量矩阵集合。

由于词向量化之后的嵌入矩阵不能体现文本序列内部词与词之间的相对位置关系，因此，还需要额外的位置编码操作。类似的，本发明在每个词位置生成一个位置嵌入向量，得到位置向量矩阵集合：

E_set＝{[[UNK],e₁,e₂,…[STOP]],…,[…,e_n-1,e_n,[CLS]]} (4)；

最终，输入到中文BERT模型中的资源文本集合嵌入矩阵为词向量矩阵与位置向量矩阵的和：

如图15所示的一个停止符掩码操作的处理示意图。

中文BERT模型层：该层完全采用基于全词遮蔽的预训练方法。由于该模型参数较多，选择使用Cui等人的训练参数以及相应权重来填充该模型层，并对这些参数进行冻结，不再参与训练优化过程，这样相应的训练学习成本会大幅度下降。

基于中文BERT模型的资源文本向量输出为：

经典的BERT模型时采用带有掩码操作的“下一句预测任务”来实现预训练模型的学习，然而，互联网众包平台的资源文本数据集合并不符合这一特点，本发明实施中，采用文本分类任务实现BERT模型的训练。

通过数据集中每个样本所对应的服务类别字段“Class_ID”，以Cui等人基于维基百科语料所训练的BERT模型为基础，继续进行文本分类任务的训练。

平均池化层：在上一步中，模型输出大小为TXd的矩阵表示，本层中采用简单而有效的平均池化策略，对所有输出向量进行处理，所得到的设计资源的语义映射表征向量可以计算为：

在BERT模型的输出层添加一个注意力层和Softmax层，以满足分类任务的需要，模型的整体架构如图16所示。

这样对于任何长度的输入，总得到d维的语义向量输出。

使用预训练的BERT模型将文本映射到语义空间后，设计资源描述就具有了唯一的坐标，利用坐标可以得到设计资源在向量空间嵌入的分布，并进行聚类、分类及关联挖掘。

为了充分的验证上述提出的模型的有效性，本发明从众包设计资源平台的后端数据库中选取了大约100万条的原始数据进行模型的验证。它们是包含服务索引“Service_Index”，服务内容“Service_Content”和服务类别“Class_ID”等多个字段的服务资源半结构化文本。

由于原始的服务资源文本格式复杂，无法满足本文的要求，因此需要对这些文本数值化和向量化：

1、中文分词：由于基于字的特征粒度会丢失过多“N-gram”信息，需要对文本数据进行分词处理。为了尽可能提高BERT模型的预训练效果，采用了多种分词器进行处理，包括J ieba、PKUSeg、THULAC、HANNLP和BaiduLAC五种。在经过对比实验后，选取PKUSeg分词器作为最终的应用。

2、去停用词和异常数据：去除了一些对表征及匹配任务无意义的高频词，目的在于过滤文本冗余和噪声，提高模型的性能。另外，对数据集中非中文的异常数据和长度小于5的文本也进行了过滤。

3、文本表示：文本表示的目的是将完成分词、去停用词后的文本进行向量化，转化成便于计算机处理的数字形式，是保证文本分类质量最重要的部分。对于语义表征任务，通过采用哈工大团队基于BERT模型训练的预训练权重进行文本表示。对于语义匹配任务，采用上一步表征任务所学习的预训练词嵌入权重作为模型的词向量词典。

经过预处理之后，在语义表征任务和语义匹配任务的数据集统计如下表一所示：

表一

本发明实施例中，以特斯拉云服务器为硬件环境进行训练，采用支持GPU模式训练的PyTorch深度学习框架平台进行编程。

神经网络模型的参数设定对模型性能有直接影响，本发明实施例通过不断调整参数组合，采用交叉验证的方式确定最佳模型参数。下表二所示为实验模型中的部分参数设置：

表二

在测试时，BERT模型的评价指标采用准确度Accuracy进行评估，而MFIM模型的评估使用精确率(P，Precision)、召回率(R，Recall)和F1分数。它们的计算过程如下，

Accuracy＝(TP+TN)/(TP+FP+TN+FN) (8)；

P＝TP/(TP+FP) (9)；

R＝TP/(TP+FN) (10)；

F₁＝2*P*R/(P+R) (11)；

其中True Positive(TP)意思表示正确预测为正样本，TP的数值表示正确的正样本判定统计；同理，False Positive(FP)数值表示错误的正样本判定的个数；依此类推，True Negative(TN)数值表示正确的负样本判定个数；False Negative(FN)数值表示错误的负样本判定个数。

为了得到效果最好的BERT模型，测试了Jieba、PKUSeg、THULAC、HANNLP和BaiduLAC五个分词器在不同词向量维度下的性能表现。

图17展示了BERT模型在不同分词器下随着词嵌入维度变化的准确率表现由图可以看出，BERT模型的准确率随着词嵌入维度的增大而显著上升，这符合本发明的预期，因为维度的增多意味着BERT模型能够承载更多的特征，能有效增加词的语义丰富度。

步骤S3：将向量内积最大等价为欧式距离最小，在语义空间中对设计资源语义文本进行层次化聚类。

在嵌入到语义空间后，就可以度量语义的距离，也即语义的相似度计算。

由于资源人工标记的只有一级分类体系，为了得到更为细致分类，本发明对所有的语义嵌入进行分级的聚类，将语义相似的功能描述自发地聚合，由语义特征自发组织其在向量空间的分布结构，并形成层次化的分类体系，不需要人工设定分类标记。

通常深度模型输出的嵌入向量是基于余弦距离的，即内积越大，语义越接近，这种尺度准则无法直接使用普通的聚类方法，本发明引入一种变换，将向量内积最大化等价的转换为距离最小化运算，变换方法如下：

预设一个值U<1，U是一个可调的超参数，通常0.8≤U≤1，计算

对每个语义向量X_i∈S(S是语义向量集合)都除以V，于是

对任一语义向量x，引入两种变换方法，变换P(x)追加m项变换Q(x)追加m个“1/2”，即

能得到

基于上面三个展开项，能得到：

这样当进行任意向量q和x_i的相似度比较时，为固定项，当m较大时(m>3即可)可看出即得到

该表达式的左边代表原有的向量内积最大化，右边代表欧式距离最小化，引入该变换使得两者近似等价。

之后可以进行自底向上的层次化聚类，对向量空间中的点依据相互之间的距离进行凝聚式聚类。也即，从一级语义层级开始直至三级语义层次，对一级语义在一级语义层次上聚类，对二级语义在二级语义层次上聚类，对三级语义在三级语义层次上聚类。

在聚类过程中使用上述变换后的欧式距离比较准则，不需要估计初始的聚类数及类别中心，只需要扫描一次数据即可完成。

聚类后，可以得到语义的簇标号，每个标号代表一个语义接近的更细致的分类，该方法有益于形成层次化的语义分类体系，如图18所示，聚类出相应的分类，找到资源之间的关联关系，同时为了更加直观地表示这种关联，本发明使用TSNE进行降维，将向量映射到三维空间中，更加方便商户进行资源的管理，降维后的聚类结果如图19所示。

步骤S4：基于层次化聚类结果对设计资源进行关联。

得到层次化聚类结果后，从一级语义层次可以根据相同聚类簇关联到最接近的设计资源，进一步的，可以从二级语义层次根据相同聚类关联到更细致关联的设计资源，进一步的，可以从三级语义层次根据相同聚类关联到更进一步细致关联的设计资源。

以上述得到的一个多级语义模型为例：

一级语义：{(开户,社保，(SBV))}

二级语义：{(企业，社保，(ATT))}

三级语义：{(上海公司，企业，(ATT))}

当从三个层次实现聚类后，从一级语义层级可以根据聚类找到与“社保开户”最接近的设计资源，例如设计资源A和设计资源B的语义向量的一级语义与其聚类为一簇，说明设计资源A和设计资源B与“社保开户”具有关联性。

进一步的，在一级语义关联的基础上，从二级语义层次聚类找到与“企业社保”最接近的设计资源，例如设计资源B与设计资源C的语义向量的二级语义与其聚类为一簇，说明设计资源B与“企业社保开户”具有更细致的关联性。

进一步的，在二级语义关联的基础上，从二级语义层次聚类找到与“上海公司企业”最接近的设计资源，例如设计资源B与设计资源E的语义向量的三级语义与其聚类为一簇，说明设计资源B与“上海公司企业社保开户”具有更细致的关联性。

需要说明的是，在具体实现过程中，上述的方法部分可以通过硬件形式的处理器执行存储器中存储的软件形式的计算机执行指令实现，此处不予赘述，而所执行的动作所对应的程序均可以以软件形式存储于系统的计算机可读存储介质中，以便于处理器调用执行以上各个模块对应的操作。

上文中的计算机可读存储介质可以包括易失性存储器，例如随机存取存储器；也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；还可以包括上述种类的存储器的组合。

上文所提到的处理器，也可以是多个处理元件的统称。例如，处理器可以为中央处理器，也可以为其他通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者可以是任何常规的处理器等等，还可以为专用处理器。

应该指出的是，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种设计资源关联方法，其特征在于，包括：

对众包设计资源构建多级语义模型；

将多级语义模型的语义链映射到语义空间；

基于层次化聚类结果对设计资源进行关联；

其中，构建多级语义模型包括：

（1）遍历设计资源找到核心动谓词，以检测到的广义动宾关系得到一级语义；所述广义动宾关系包括直接宾语关系、间接宾语关系、前置宾语关系、核心动谓词与其支配的名词短语为状中关系、核心动谓词与其支配的名词短语为主谓关系、当核心动谓词的宾语缺失时以定中关系表达的修饰词；

（2）对一级语义中的谓词中心词和宾语中心词检测其修饰成分得到二级语义；

（3）对二级语义的中心词检测其修饰成分得到三级语义；

（4）将检测到的高于三级的语义成分补全到其隶属的中心词上；

对众包设计资源构建多级语义模型，具体为：

步骤1、将众包设计资源短句进行词分隔和词性标注；

步骤2、将步骤1处理后的短句切分为多个独立短句；

步骤3、针对每个独立短句进行以下处理：

1）依存关系分析；

2）以并列关系和独立结构提取独立短句中的独立功能成分；

3）针对每个独立功能成分构建多级语义模型；

以并列关系和独立结构关系提取独立短句中的独立功能成分，包括：

（1）当检测到的并列关系位于广义宾语修饰区域时，以核心动谓词为基础同等划分为两个独立功能成分；

（2）当检测到的并列关系位于核心动谓词之间时，同等划分为两个独立功能成分；

（3）当并列关系和独立结构同时存在时，若独立结构是动词性谓语且存在并列关系时，以所述独立结构的动词性谓语为基础同等划分为两个独立功能成分；若独立结构非动词性谓语时，不建立独立功能成分；

将多级语义模型的语义链映射到语义空间采用映射模型实现，所述映射模型由嵌入层、中文BERT模型层和平均池化层构成；

所述嵌入层进行词向量和位置向量的嵌入操作，通过相加得到复合形式的嵌入矩阵；其中，词向量的嵌入操作中采用停止符“[STOP]”对输入序列进行掩码操作。

2.根据权利要求1所述的设计资源关联方法，其特征在于，针对每个独立功能成分构建多级语义模型，包括：

当检测到一级语义不存在核心宾语时，将其修饰部分视为其宾语，构建到一级语义中。

3.根据权利要求1所述的设计资源关联方法，其特征在于，将向量内积最大等价为欧式距离最小，包括：

预设一个值U<1，U为可调的超参数，0.8，计算；x为语义向量；S是语义向量集合；

对每个语义向量都除以V，得到，；

对任一语义向量引入两种变换方法：

变换P(x)追加m项，和变换Q(x)追加m个“1/2”，即

，以及；能得到

；

基于上面三个展开项，得到

；左边代表原有的向量内积最大化，右边代表欧式距离最小化；

这样当进行任意向量q 和的相似度比较时，为固定项，当m较大时可看出，即得到。