CN108549727B

CN108549727B - 基于网络爬虫以及大数据分析的用户获利信息推送方法

Info

Publication number: CN108549727B
Application number: CN201810409419.0A
Authority: CN
Inventors: 韩景倜; 梁贺君; 李超然; 任上
Original assignee: Shanghai university of finance and economics
Current assignee: Shanghai university of finance and economics
Priority date: 2018-05-02
Filing date: 2018-05-02
Publication date: 2021-11-23
Anticipated expiration: 2038-05-02
Also published as: CN108549727A

Abstract

为提供一种既能实现对符合条件的用户推送获利信息，又能够保证信息全面性的用户获利信息推送方法，本发明提供了一种基于网络爬虫以及大数据分析的用户获利信息推送方法，包括如下步骤：步骤S1，获取用户的用户信息；步骤S2，对用户信息进行文本分析得到反映条件特征；步骤S3，根据条件特征对用户进行分类得到不同的用户分类；步骤S4，利用网络爬虫从多个信息发布网站上获取获利信息；步骤S5，对获利信息进行文本分析得出不同的获利信息所对应的获利条件；步骤S6，根据条件特征以及的获利条件得出用户分类与获利信息的匹配程度；步骤S7，根据与获利信息之间的匹配程度向用户分类中的用户推送获利信息。

Description

基于网络爬虫以及大数据分析的用户获利信息推送方法

技术领域

本发明涉及一种信息推送方法，具体涉及一种基于网络爬虫以及大数据分析的用户获利信息推送方法。

背景技术

现代社会是信息爆炸的社会，而如何从大量信息中获取与自身利益相关的信息从而获利则是目前的互联网用户关注较多的问题，例如，为了提升客流量，餐饮店经常在不同的网站上发布符合特定条件(例如持有高校学生证或某银行信用卡等)即可在限定时间内获得折扣的信息，当用户获知该信息并且自身条件符合时即可获得折扣；又例如，为了促进科技发展，政府机构通常会向符合条件的科技型企业提供资金或政策方面的支持等。

然而，由于上述与用户获取的利益相关的获利信息通常会分散发布在不同的网站上(例如，本地信息发布网站，银行优惠信息发布页面或者不同政府机构网站的公告页面等等)，用户几乎无法自主、全面地获得这些信息。一些网站会在筛选后向条件匹配的用户主动推送信息，但这种推送的范围仅限于登录并浏览了该网站的用户，其他用户则无法获得推送而不能得知该网站上的获利信息。

为了提升信息的全面性，一些网站还采用了获取其他多个网站发布的获利信息并进行展示的方式，使得用户能够浏览并从这些信息中找到有用的获利信息。然而，这样的方式又导致了信息量过大，导致用户不得不花费大量时间进行浏览和筛选。此外，由于这样的网站中获利信息量巨大、用户的条件信息也极为复杂，因此筛选和条件匹配机制也难以有效实现。

发明内容

为解决上述问题，提供一种既能实现对符合条件的用户推送获利信息，又能够保证信息全面性的用户获利信息推送方法，本发明采用了如下技术方案：

本发明提供了一种基于网络爬虫以及大数据分析的用户获利信息推送方法，用于向根据用户信息向不同的用户推送对应的获利信息，其特征在于，包括如下步骤：步骤S1，获取用户的用户信息；步骤S2，依次对用户信息进行文本分析，分别得到反映各个用户的获利条件的多个条件特征；步骤S3，根据条件特征对用户进行分类，从而得到不同的用户分类；步骤S4，利用网络爬虫从多个与用户获利相关联的信息发布网站上获取与获利相关的获利信息；步骤S5，对获利信息进行文本分析，得出不同的获利信息所对应的获利条件；步骤S6，根据与用户分类相对应的条件特征以及与获利信息对应的获利条件得出用户分类与获利信息的匹配程度；步骤S7，根据与获利信息之间的匹配程度向用户分类中的用户推送获利信息。

本发明提供的基于网络爬虫以及大数据分析的用户获利信息推送方法，还可以具有这样的技术特征，其中，步骤S3包括如下步骤：步骤S3-1，将条件特征形成与用户相对应的特征向量；步骤S3-2，基于特征向量对用户进行聚类；步骤S3-3，依次获取每类用户的用户标签。

本发明提供的基于网络爬虫以及大数据分析的用户获利信息推送方法，还可以具有这样的技术特征，其中，步骤S3-2的聚类采用基于社区发现的聚类算法进行。

本发明提供的基于网络爬虫以及大数据分析的用户获利信息推送方法，还可以具有这样的技术特征，其中，步骤S5包括如下步骤：步骤S5-1，对获利信息进行数据清洗从而去除其中的无效信息；步骤S5-2，对清洗后的获利信息进行文本分析，得出每个获利信息所包含的获利条件。

本发明提供的基于网络爬虫以及大数据分析的用户获利信息推送方法，还可以具有这样的技术特征，其中，步骤S6中，匹配程度为条件满足度，该步骤S6包括如下步骤：步骤S6-1，判定企业分类的各个条件特征是否与获利信息中的获利条件相符合，若符合则给予一个高匹配值，若不符合则给予一个低匹配值；步骤S6-2，对不同种类的获利条件设定不同的权重值；步骤S6-3，将匹配值乘以对应的权重值后进行加和计算，得到企业分类与获利信息之间的条件满足度。

本发明提供的基于网络爬虫以及大数据分析的用户获利信息推送方法，还可以具有这样的技术特征，其中，步骤S7的推送根据如下规则进行：设定匹配程度阈值，当用户分类与获利信息之间的匹配程度高于匹配程度阈值时则向该用户分类下的用户发送高于匹配程度阈值的获利信息。

发明作用与效果

根据本实施例提供的基于网络爬虫以及大数据分析的用户获利信息推送方法，由于对用户信息进行文本分析从而得到了多个条件特征、根据条件特征对用户进行了分类，同时还对获利信息进行了文本分析并得到了多个获利条件，因此能够根据条件特征和获利条件得出用户分类与获利信息的匹配程度，从而向用户分类中的各个用户推送获利信息，使得用户能够获得与自身条件较为符合的获利信息，让用户既能够获得获利信息，又不用花费大量的时间进行筛选和条件匹配。

不仅如此，由于上述过程中，用户被分为了不同的分类，而条件特征是与用户分类相对应的，因此该过程中进行的条件匹配是基于分类进行而不是基于单个用户进行的。所以，即使需要一一计算各个分类与获利信息的条件满足度，其计算量也远比基于各个用户进行的匹配要小，能够快速有效地完成条件匹配。

附图说明

图1是本发明实施例的基于网络爬虫以及大数据分析的用户获利信息推送方法的流程图。

具体实施方式

以下结合附图及实施例来说明本发明的具体实施方式。实施例中，以企业需要获得政府机构发布的资金政策支持信息的场景为例进行说明，即，实施例中，这些企业作为用户，具有获取与其自身的条件相符合的政策支持信息等获利信息的需求。

<实施例>

如图1所示，本实施例的基于网络爬虫以及大数据分析的用户获利信息推送方法包括如下步骤。

步骤S1，获取用户的用户信息。

本实施例中，用户为企业，用户信息包括用户的名称、地址、联系方式等企业基本信息以及营业执照信息、股东及出资信息、主要人员信息、分支机构信息、清算信息、行政许可信息、行政处罚信息、是否列入经营异常名录和是否列入严重违法失信企业名单等企业经营信息。其中，企业基本信息可由企业在注册时提供，企业经营信息可由企业在注册时提供，也可以在征得企业许可的情况下从相关信息公示网站中获取。

步骤S2，依次对用户信息进行文本分析，分别得到反映各个用户的获利条件的多个条件特征。其中，每条企业经营信息均包含特征属性以及特征值。

本实施例中，从信息公示网站获取的企业经营信息时为多条文本，对这些文本分别进行文本分析即可获得条件特征。例如，利用事先存储的词库对“甲公司注册资本3000万”这一文本进行分词，再根据文本的前后文关系判定甲公司的注册资本为“3000万”；此时，“3000万”就是一个条件特征，特征属性为“注册资本”，特征值为“3000万”。

另外，当企业经营信息由企业提供时，由于可以采用让用户在指定栏目填写内容的方式(例如，直接让用户在“注册资本”这一栏内填写“3000万”这样的内容)，因此可以不用进行分词等文本分析就能够得到条件特征的特征属性及特征值。

对全部用户的条件特征均分析获取完毕后，即可进入步骤S3。

步骤S3，根据条件特征对用户进行分类，从而得到不同的用户分类。

本实施例中，对用户的分类基于用户画像处理技术进行，包括如下步骤：

步骤S3-1，将条件特征形成与用户相对应的特征向量。由于能否得到政策支持与企业的资质和经营情况均有关联，而本实施例中的条件特征均能够反映企业的资质和经营情况，因此全部的条件特征均用于形成特征向量；在其他实施例中，也可以针对不同的应用场景所需要的条件，选择不同的条件特征来形成特征向量。

步骤S3-2，基于特征向量对用户进行聚类，即，采用基于特征向量的聚类算法对企业进行聚类。本实施例中，采用现有技术中的基于社区发现的聚类算法对企业进行聚类，从而得到不同的企业分类(即用户分类)。另外，在其他实施例中，也可以采用现有技术中的其他聚类算法，如K-means聚类算法、层次聚类算法等进行聚类。

本实施例中，基于社区发现的聚类算法的具体实现方法为：对所有用户(即企业)根据特征向量计算相关系数，如此得到所有用户之间的相关系数矩阵。当两个用户之间相关系数大于预先设定的阈值时，则将这两个用户连边，如此可以得到以所有用户为节点的网络。用户相当于每一个点，用户之间通过互相连边关系构成了整个网络的结构，在这样的网络中，有的用户之间的连接较为紧密，有的用户之间的连接关系较为稀疏，连接较为紧密的部分可以被看成一个社区，其内部的节点之间有较为紧密的连接，而在两个社区间则相对连接较为稀疏，这便称为社团结构。基于此，使用现有的fast unfolding算法进行社区发现，所得到的各个社区中包含节点的集合即为用户群，即，实现了用户的聚类。

聚类结束后，每类企业均具有一定相似性，例如业务相似性、注册地相似性、注册资本相似性等。也就是说，每类企业均较为相似，并且在某一方面或某几方面相似性较高。

步骤S3-3，依次获取每类用户的用户标签。

如上所述，根据上述聚类算法对企业进行聚类后，则每类企业均具有一定的相似性。因此，通过现有的用户画像处理技术，根据每类企业所具有的共同特点(例如，共同的条件特征)获得各类企业的多个用户标签。此时，每个用户标签均代表了该类别的企业的一个共同特征，例如共同注册地等。

步骤S4，利用网络爬虫从多个与用户获利相关联的信息发布网站上获取与获利相关的获利信息。

本实施例中，与作为用户的企业的获利相关联的信息发布网站主要为各种政策支持信息发布网站以及政策新闻发布网站，例如，针对某贫困地区的企业所发布的税收优惠政策信息可能发布在地区政府网站的公告页面上，人才引进支持信息可能发布在地区人才中心网站的公告页面上，这些信息均是通过公开渠道公布给公众的，因此本实施例采用爬虫技术对这些信息进行一一获取并存储。

步骤S5，对获利信息进行文本分析，得出不同的获利信息所对应的获利条件，具体包括如下步骤：

步骤S5-1，对获利信息进行数据清洗，去除无效信息。由于获利信息的具体形式通常为公告或新闻，因此经过爬虫模块抓取后将含有大量的与获利无关的冗余信息(如网站网址、网页参数等等)，经过数据清洗后即可去除这些冗余信息。数据清洗可以采用基于正则表达式的方式进行，从而去除符合冗余信息形式(例如符合网址的文本形式)的信息。

步骤S5-2，对清洗后的获利信息进行文本分析，得出每个获利信息所包含的获利条件。公告新闻等获利信息在清洗后即形成了不同的文章，通过分词、提取关键词等文本分析的方式即可获得各条获利信息所包含的具体获利条件。

本实施例中，分词及提取关键词均可基于事先存储的词库进行，同时，获得的每个获利条件均包含了多个具有不同属性的获利关键词。例如，对“A地提出对提供了15个以上就业岗位的大学生创业企业提供创业担保贷款政府贴息，……”进行分词、提取关键词后，得到“A地”(注册地)、“15个以上”(就业岗位数)、“大学生创业企业”(企业性质)、“创业担保贷款”(获利项目)、“政府贴息”(获利内容)等获利关键词，其中，括号里的内容为获利关键词对应的属性。另外，本实施例还通过一个预先设置的替换词库来对一些意义相同但文字不同的获利关键词进行替换和统一，以避免出现因选用词汇不同而导致实质相同的获利关键词被误认为不同的情况。

经过上述数据清理及文本分析，各条获利条件就从获利信息中分别提取了出来，这些获利条件可以连同其获取时间一起进行存储，然后进入步骤S6。

步骤S6，根据与用户分类相对应的条件特征以及与获利信息对应的获利条件得出用户分类与获利信息的匹配程度。

本实施例中，用户分类与获利信息的匹配程度采用条件满足度来表示。

条件满足度指企业满足获利信息中的获利条件的程度，其采用匹配值与权重值结合的方式来计算获得，具体计算规则如下：

首先，判定企业分类的各个条件特征是否符合获利信息中的各个获利条件(即判断属性相同的条件特征和获利条件是否一致)，若符合则给予一个高匹配值，若不符合则给予一个低匹配值甚至将匹配值记为0。

然后，根据不同种类的条件对满足程度的影响，对不同种类的获利条件设定权重值，将匹配值乘以对应的权重值后进行加和计算，即可得到某个企业分类与某个获利信息之间的条件满足度。

例如，当一个企业分类的条件特征中包含有“A地”(注册地)，同时一个获利信息中包含有“A地”(注册地)的获利条件时，由于二者是一致的，因此针对“注册地”这个条件给予一个高匹配值；同时，由于在企业的经营支持政策方面，注册地是非常重要的条件(例如，若注册地不在某地则完全不可能享受其支持政策)，因此针对这个条件给予一个高权重值。另外，上述计算过程中，以文字形式存储的条件特征和获利条件的匹配值可以只设定高匹配值和低匹配值两个等级，但以数字形式存储的则可以设定高中低等不同等级以体现条件特征与获利条件的接近程度。

上述计算按照一一遍历的方式进行，即每个企业分类都依次与每个获利信息进行比对和条件满足度的计算，得到不同企业分类与所有获利信息之间的条件满足度，然后可进入步骤S7。

步骤S7，根据与获利信息之间的匹配程度向用户分类中的用户推送获利信息。

通过步骤S6获得不同企业分类与所有获利信息的匹配程度(即条件满足度)后，即可向企业分类中的各个企业发送匹配程度高(即条件满足度数值高)的获利信息。

本实施例中采用按照条件满足度阈值的方式来确定需要发送的获利信息。例如，某个企业分类与几条获利信息之间的条件满足度均高于预先设定的阈值，则向该分类下的所有企业发送这些高于阈值的获利信息(可以根据企业注册时提供的联系方式进行发送)。企业收到相应的获利信息后，即可根据其中的公告或新闻内容来判断自身是否能够从中获利并作出相应对策。

上述过程中，由于本实施例采用的是基于阈值确定需要发送的获利信息的方式，因此企业很有可能收到条件满足度高于阈值但实际上自身条件并非完全严格满足的获利信息。这种情况下，尽管企业还不完全具备相应的条件，但仍然可以根据获利信息在欠缺的方面作出努力，从而在以后获得相应的资金政策支持。

实施例作用与效果

实施例中，由于采用了基于匹配值和权重值得出的条件满足度来衡量用户分类与获利信息之间的匹配程度，因此不仅能够从整体上反映一个用户分类与不同获利信息之间的匹配程度，还能够使重要的条件对匹配程度的结果产生更大影响，从而使匹配程度更准确，也使得后续的信息推送更为精确。

另外，本实施例的获利信息推送是根据预设的匹配程度阈值而进行的，因此能够在用户不完全满足获利信息的获利条件时也对其进行推送，让用户得到更多有可能符合的获利信息并让用户能够根据这些获利信息来确定未来的发展方向，从而产生更长久的推动作用，有利于用户的长远发展。

实施例中，对获利信息的文本分析过程中还包括对获利关键词进行替换和统一的步骤，因此能够避免出现因选用词汇不同而导致实质相同的获利关键词被误认为不同的情况。

上述实施例仅用于说明本发明的具体实施方式，而本发明的基于网络爬虫以及大数据分析的用户获利信息推送方法不限于上述实施例描述的范围。

例如，实施例中，匹配程度是采用基于匹配值和权重值得出的条件满足度来表示的。但在本发明中，匹配程度也可以直接基于匹配值得出，或者直接基于条件特征与获利条件相符合的个数来得出，这样的简化方式不能从整体上反映匹配程度，但其在一些较为简单、不需要作出过多整体性考虑的应用场景中可以应用，并且能够减小本发明的方法应用于这些场景时的计算量，从而提高效率。

实施例中，获利信息推送是根据预设的匹配程度阈值而进行的，因而能让用户获得一些目前还不能完全满足条件的获利信息。但在本发明中，也可以让用户在注册时选择是否需要获得这样的获利信息，当用户选择不需要时，就将该用户的条件特征与匹配程度在阈值以上(即，与该用户所在的用户分类的匹配程度在阈值以上)的获利信息所对应的获利条件进行一一比对，并在完全匹配时才对获利信息进行发送，使得用户能够根据自己的意愿选择仅仅获得完全符合条件的获利信息、提高信息获取效率。

Claims

1.一种基于网络爬虫以及大数据分析的用户获利信息推送方法，用于向根据用户信息向不同的用户推送对应的获利信息，其特征在于，包括如下步骤：

步骤S1，获取所述用户的用户信息；

步骤S2，依次对所述用户信息进行文本分析，分别得到反映各个所述用户的获利条件的多个条件特征；

步骤S3，根据所述条件特征对所述用户进行分类，从而得到不同的用户分类；

步骤S4，利用网络爬虫从多个与用户获利相关联的信息发布网站上获取与获利相关的获利信息；

步骤S5，对所述获利信息进行文本分析，得出不同的获利信息所对应的获利条件；

步骤S6，根据与所述用户分类相对应的所述条件特征以及与所述获利信息对应的所述获利条件得出所述用户分类与所述获利信息的匹配程度；

步骤S7，根据与所述获利信息之间的所述匹配程度向所述用户分类中的所述用户推送所述获利信息，

其中，步骤S3包括如下步骤：

步骤S3-1，将所述条件特征形成与所述用户相对应的特征向量；

步骤S3-2，基于所述特征向量，采用基于社区发现的聚类算法对所述用户进行聚类；

步骤S3-3，依次获取每类所述用户的用户标签，

步骤S3-2中的基于社区发现的聚类算法的过程为：

对所有所述用户根据所述特征向量计算相关系数，得到所有所述用户之间的相关系数矩阵，当两个所述用户之间的相关系数大于预先设定的阈值时，则将这两个所述用户连边，得到以所有所述用户为节点的网络，基于此使用fast unfolding算法进行社区发现，所得到的各个社区中包含所述节点的集合即为用户群，即实现所述用户的聚类。

2.根据权利要求1所述的基于网络爬虫以及大数据分析的用户获利信息推送方法，其特征在于：

其中，步骤S5包括如下步骤：

步骤S5-1，对所述获利信息进行数据清洗从而去除其中的无效信息；

步骤S5-2，对清洗后的所述获利信息进行文本分析，得出每个所述获利信息所包含的获利条件。

3.根据权利要求1所述的基于网络爬虫以及大数据分析的用户获利信息推送方法，其特征在于：

其中，步骤S6中，所述匹配程度为条件满足度，该步骤S6包括如下步骤：

步骤S6-1，判定企业分类的各个所述条件特征是否与所述获利信息中的所述获利条件相符合，若符合则给予一个高匹配值，若不符合则给予一个低匹配值；

步骤S6-2，对不同种类的所述获利条件设定不同的权重值；

步骤S6-3，将所述匹配值乘以对应的所述权重值后进行加和计算，得到所述企业分类与所述获利信息之间的所述条件满足度。

4.根据权利要求1所述的基于网络爬虫以及大数据分析的用户获利信息推送方法，其特征在于：

其中，步骤S7的推送根据如下规则进行：

设定匹配程度阈值，当所述用户分类与所述获利信息之间的所述匹配程度高于所述匹配程度阈值时则向该用户分类下的所述用户发送高于所述匹配程度阈值的所述获利信息。