CN111047413B - 发文内容获取方法、装置、计算机设备和可读存储介质 - Google Patents
发文内容获取方法、装置、计算机设备和可读存储介质 Download PDFInfo
- Publication number
- CN111047413B CN111047413B CN201911299106.5A CN201911299106A CN111047413B CN 111047413 B CN111047413 B CN 111047413B CN 201911299106 A CN201911299106 A CN 201911299106A CN 111047413 B CN111047413 B CN 111047413B
- Authority
- CN
- China
- Prior art keywords
- link
- target
- long link
- processed
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0253—During e-commerce, i.e. online transactions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请实施例提供了一种发文内容获取方法、装置、计算机设备和可读存储介质,涉及电子商务技术领域,该方法包括:获取目标用户发送的多个博文内容;当多个博文内容中包括短链接时,提取短链接,并将短链接发送至服务器,以使服务器将短链接转化为目标长链接,其中,目标长链接中包括商品信息字符;接收服务器发送的所述目标长链接,并根据目标长链接中的商品信息字符得到目标发文内容,能够便捷地获取目标用户的目标发文内容。
Description
技术领域
本申请涉及电子商务技术领域,具体而言,涉及一种发文内容获取方法、装置、计算机设备和可读存储介质。
背景技术
目前,商家想要将自己的商品进行推广,一般会雇佣在社交平台上具备较大影响力的关键意见消费者(Key Opinion Leader,简称KOL)。为了能够找到合适的KOL进行商品推广,商家需要对该KOL在社交平台上发布的内容进行获取。然而在现有技术中,各个社交平台上用户发布的内容在提取时都会转换为短链接的形式,商家在获取之后并不能直接获取该链接包含的内容,导致了后续对该KOL发布的博文内容进行进一步处理的过程受到了阻碍,在实际应用中十分的不便。
有鉴于此,如何提供一种便捷获取目标用户发文内容的方案。
发明内容
本申请实施例提供了一种发文内容获取方法、装置、计算机设备和可读存储介质。
本申请的实施例可以这样实现:
第一方面,实施例提供一种发文内容获取方法,包括:
获取目标用户发送的多个博文内容;
当所述多个博文内容中包括短链接时,提取所述短链接,并将所述短链接发送至服务器,以使所述服务器将所述短链接转化为目标长链接,其中,所述目标长链接中包括商品信息字符;
接收所述服务器发送的所述目标长链接,并根据所述目标长链接中的所述商品信息字符得到目标发文内容。
在可选的实施方式中,所述将所述短链接发送至服务器,以使所述服务器将所述短链接转化为目标长链接的步骤,包括:
将所述短链接发送至服务器,以使所述服务器将所述短链接转换为待处理长链接;
接收所述服务器发送的所述待处理长链接;
当所述待处理长链接不包括预设中间信息,或者通过所述待处理长链接得到所述商品信息字符时,根据所述待处理长链接得到所述目标长链接;
当所述待处理长链接包括预设中间信息,且通过所述待处理长链接得不到所述商品信息字符时,将所述短链接发送至所述服务器,以使所述服务器将所述短链接发送至浏览器页面加载得到所述目标长链接。
在可选的实施方式中,所述待处理长链接包括待确定字符信息;
所述当所述待处理长链接不包括预设中间信息,或者通过所述待处理长链接得到所述商品信息字符时,根据所述待处理长链接得到所述目标长链接的步骤,包括:
判断所述待处理长链接中的待确定字符信息是否包括预设中间信息;
若否,则确定所述待确定字符信息为所述商品信息字符,将所述待处理长链接作为所述目标长链接;
若是,则确定所述待确定字符信息不为所述商品信息字符,并对所述待处理长链接进行重定向,以获取所述商品信息字符,得到所述目标长链接。
在可选的实施方式中,所述对所述待处理长链接进行重定向,以获取所述商品信息字符,得到所述目标长链接的步骤,包括:
根据所述待处理长链接生成重定向响应,并将所述重定向响应发送至所述服务器,以使所述服务器根据所述重定向响应获取重定向链接,其中,所述重定向链接包括重定向商品信息字符;
接收所述服务器发送的所述重定向链接,当所述重定向链接中的所述重定向商品信息字符包括所述商品信息字符时,则将所述重定向链接作为所述目标长链接。
在可选的实施方式中,所述短链接的数据格式为可扩展标记语言格式或对象简谱数据格式,所述将所述短链接发送至服务器,以使所述服务器将所述短链接转换为待处理长链接的步骤,包括:
当所述短链接的数据格式为可扩展标记语言格式时,发送第一转换指令和所述短链接至所述服务器,以使所述服务器根据所述第一转换指令将所述短链接转换为待处理长链接;
当所述短链接的数据格式为对象简谱数据格式时,发送第二转换指令和所述短链接至所述服务器,以使所述服务器根据所述第二转换指令将所述短链接转换为待处理长链接。
在可选的实施方式中,所述目标发文内容展示于目标网页;
所述接收所述服务器发送的所述目标长链接,并根据所述目标长链接中的所述商品信息字符得到目标发文内容的步骤,包括:
根据所述目标长链接,获取所述目标网页的源码;
根据所述目标网页的源码,通过路径语言获取所述商品信息字符对应的商品信息;
从所述商品信息中获取所述目标发文内容。
在可选的实施方式中,所述目标长链接为多个,所述接收所述服务器发送的所述目标长链接,并根据所述目标长链接中的所述商品信息字符得到目标发文内容,包括:
将多个所述目标长链接进行分组,得到多个待处理长链接组;
将所述多个待处理长链接组进行异步爬虫处理,得到多个所述目标发文内容。
第二方面,实施例提供一种发文内容获取装置,包括:
获取模块,用于获取目标用户发送的多个博文内容;
转换模块,用于当所述多个博文内容中包括短链接时,提取所述短链接,并将所述短链接发送至服务器,以使所述服务器将所述短链接转化为目标长链接,其中,所述目标长链接中包括商品信息字符;
接收模块,用于接收所述服务器发送的所述目标长链接,并根据所述目标长链接中的所述商品信息字符得到目标发文内容。
第三方面,实施例提供一种计算机设备,所述计算机设备包括处理器及存储有计算机指令的非易失性存储器,所述计算机指令被所述处理器执行时,所述计算机设备执行前述实施方式中任意一项所述的发文内容获取方法。
第四方面,实施例提供一种可读存储介质,所述可读存储介质包括计算机程序,所述计算机程序运行时控制所述可读存储介质所在计算机设备执行前述实施方式中任意一项所述的发文内容获取方法。
本申请实施例的有益效果包括,例如:
采用本申请实施例提供的发文内容获取方法、装置、计算机设备和可读存储介质,通过获取目标用户发送的多个博文内容,并从多个博文内容中提取出短链接,再将短链接发送至服务器巧妙地转换为目标长链接,便可从目标长链接中获取目标发文内容,能够便捷地获取目标用户发送的目标发文内容。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的发文内容获取方法的步骤流程示意图;
图2为图1中步骤S22的子步骤流程示意图;
图3为图2中步骤S223的子步骤流程示意图;
图4为图3中步骤S2233的子步骤流程示意图;
图5为本申请实施例提供的发文内容获取装置的结构示意框图;
图6为本申请实施例提供的计算机设备的结构示意框图。
图标:100-计算机设备;110-发文内容获取装置;1101-获取模块;1102-转换模块;1103-接收模块;111-存储器;112-处理器;113-通信单元。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
目前,商家想要将自己的商品进行推广,一般会雇佣KOL账号在社交平台上发布自己的产品,而商家在挑选适合自己商品的KOL账号时,需要对该KOL账号以往发布的内容进行获取,以便决定是否雇佣该KOL账号用于商品的推广。当商家确定了雇佣的KOL后,经过一段时间,也需要对该KOL发布的内容进行检视,以便确定该KOL账户确实按照约定发布了相关商品的信息。在现有技术中,由于各个社交平台发布博文内容的字数限定等原因,博文内容中的各种信息都会编转化为短链接,例如“http://t.cn...”,而现有技术中的爬取技术,是无法直接从短链接中获取得到该博文内容包括的商品信息的,因此在实际应用中商家想要获知目标用户发送的博文内容中包括的商品相关信息,十分的不便。基于此,本申请实施例提供了一种发文内容获取方法,如图1所示,该方法包括步骤S21至步骤S23。
步骤S21,获取目标用户发送的多个博文内容。
步骤S22,当所述多个博文内容中包括短链接时,提取所述短链接,并将所述短链接发送至服务器,以使所述服务器将所述短链接转化为目标长链接,其中,所述目标长链接中包括商品信息字符。
步骤S23,接收所述服务器发送的所述目标长链接,并根据所述目标长链接中的所述商品信息字符得到目标发文内容。
各个社交平台由于各种限制(例如字数限制、显示大小限制),会将用户在社交平台上发布的博文内容中的信息进行压缩。若目标用户(即KOL用户)发布推广商品相关的信息,必然会同步发送该商品的相关链接,以便其他用户可以通过该链接获取该商品的购买页面。而发布的商品链接一般较长,必然会被加密压缩为“http://t.cn...”的形式,而目标用户发送的其他内容,例如仅文字内容,该博文内容中可以不包括短链接。应当理解的是,每个短链接对应唯一的目标长链接,因此无需对已经转换完成的短链接进行重复转换,可以设置预设时间段,从存储目标用户发送的博文内容的社交平台数据库服务器中获取目标用户发送的多个博文内容。例如,每天上午10时获取前一天上午10时至今的博文内容,可以避免重复计算,提高处理效率。而判断目标用户发送的每个博文内容中是否包括短链接的方式可以采用正则匹配的方式,若通过正则匹配判断某条博文内容中不包括短链接,则将该条博文内容忽略,若通过正则匹配判断某条博文内容中存在短链接,可以将短链接先存储(push)至外部数据库服务器(Remote Dictionary Server,简称redis)中,将短链接存储在redis中,可以实现在多个服务器中同时部署短链转换为目标长链接的服务器,方便后续实现并行处理。
在此基础上,本申请实施例提供一种将所述短链接发送至服务器,以使所述服务器将所述短链接转化为目标长链接的示例,可以通过步骤S221至步骤S224实现,如图2所示。
步骤S221,将所述短链接发送至服务器,以使所述服务器将所述短链接转换为待处理长链接。
步骤S222,接收所述服务器发送的所述待处理长链接。
步骤S223,当所述待处理长链接不包括预设中间信息,或者通过所述待处理长链接得到所述商品信息字符时,根据所述待处理长链接得到所述目标长链接。
步骤S224,当所述待处理长链接包括预设中间信息,且通过所述待处理长链接得不到所述商品信息字符时,将所述短链接发送至所述服务器,以使所述服务器将所述短链接发送至浏览器页面加载得到所述目标长链接。
可以由服务器调用短链接所在的社交平台的应用程序接口(ApplicationProgramming Interface,简称API)将短链接转换为待处理长链接,当待处理长链接不包括预设中间信息,或者通过所述待处理长链接得到所述商品信息字符时,可以由待处理长链接得到目标长链接。当所述待处理长链接包括预设中间信息,且通过所述待处理长链接得不到所述商品信息字符时,可以将待处理长链接发送至服务器,通过服务器将去发送至浏览页面,使得浏览器页面加载得到目标长链接,例如,可以通过Webdriver(自动测试化工具)技术将短链接输入浏览器页面,得到目标长链接。
在此基础上,请参照图3,所述待处理长链接包括待确定字符信息,本申请实施例提供一种当所述待处理长链接不包括预设中间信息,或者通过所述待处理长链接得到所述商品信息字符时,根据所述待处理长链接得到所述目标长链接的示例,可以通过步骤S2231至步骤S2233实现。
步骤S2231,判断所述待处理长链接中的待确定字符信息是否包括预设中间信息;
若否,则执行步骤S2232。
若是,则执行步骤S2233。
步骤S2232,确定所述待确定字符信息为所述商品信息字符,将所述待处理长链接作为所述目标长链接。
步骤S2233,确定所述待确定字符信息不为所述商品信息字符,并对所述待处理长链接进行重定向,以获取所述商品信息字符,得到所述目标长链接。
可以进一步判断待处理长链接的待确定字符信息是否包括预设中间信息,若不包括,则可以认为待处理长链接正是需求的目标长链接,可以将其作为目标长链接进行后续处理。若包括,则认为待处理长链接并不是需求的目标长链接,例如,在得到待处理长链接后,发现其包括的待确定字符包括预设中间信息“shop.sc.weibo.com”,可以认为待处理长链接并不是目标长链接,可以将待处理长链接作为获取目标长链接的中转链接,即可以对待处理长链接进行重定向,以获取目标长链接。
在此基础上,本申请实施例还提供一种对所述待处理长链接进行重定向,以获取所述商品信息字符,得到所述目标长链接的示例,如图4所示,可以通过步骤S2234和步骤S2235实现。
步骤S2234,根据所述待处理长链接生成重定向响应,并将所述重定向响应发送至所述服务器,以使所述服务器根据所述重定向响应获取重定向链接,其中,所述重定向链接包括重定向商品信息字符。
步骤S2235,接收所述服务器发送的所述重定向链接,当所述重定向链接中的所述重定向商品信息字符包括所述商品信息字符时,则将所述重定向链接作为所述目标长链接。
可以根据待处理长链接生成重定向响应(即redirects),服务器可以将重定向响应发送至与之通信连接的浏览器中,浏览器便可根据该重定向响应生成统一资源定位符(Uniform Resource Locator,简称URL),即重定向链接。例如,在进行重定向操作后,服务器会根据重定向响应返回一个返回码,若返回码不是200,而是302,则继续获取后续链接(继续进行重定向),直至返回码是200为止。在返回码为200时,再去判断最终的URL的商品信息字符是否为包含detail.tmall(即商品信息字符)的目标链接,若否,则说明该短链接并不是商家需求的目标长链接,可能是优惠券或者活动页面等链接,可以删除该链接,若包括了detail.tmall,则可以将该重定向链接认定为目标长链接,进一步获取商品信息。在本申请实施例中,可以采用永久重定向的方式,在本申请实施例的其他实施方式中,也可以根据实际需求采取临时重定向和特殊重定向。
在此基础上,所述短链接的数据格式为可扩展标记语言格式或对象简谱数据格式,本申请实施例提供一种将所述短链接发送至服务器,以使所述服务器将所述短链接转换为待处理长链接的示例,可以通过以下步骤实现。
当所述短链接的数据格式为可扩展标记语言格式时,发送第一转换指令和所述短链接至所述服务器,以使所述服务器根据所述第一转换指令将所述短链接转换为待处理长链接。
当所述短链接的数据格式为对象简谱数据格式时,发送第二转换指令和所述短链接至所述服务器,以使所述服务器根据所述第二转换指令将所述短链接转换为待处理长链接。
短链接的数据格式为可扩展标记语言格式(Extensible Markup Language,简称XML)或对象简谱数据格式(JavaScript Object Notation,简称JSON)。当所述短链接的数据格式为可扩展标记语言格式时,第一转换指令可以是:
“<urls>
<url>
<url_short>http://t.cn/h4DwT1</url_short>
<url_long>http://finance.sina.com.cn/</url_long>
<type>0</type>
</url>
...
</urls>”
当所述短链接的数据格式为对象简谱数据格式时,第二转换指令可以是:
在此基础上,所述目标发文内容展示于目标网页。本申请实施例提供一种接收所述服务器发送的所述目标长链接,并根据所述目标长链接中的所述商品信息字符得到目标发文内容的示例,可以通过以下步骤实现。
根据所述目标长链接,获取所述目标网页的源码。
根据所述目标网页的源码,通过路径语言获取所述商品信息字符对应的商品信息。
从所述商品信息中获取所述目标发文内容。
在得到目标长链接后,可以根据目标长链接获取对应的目标网页的源码,可以采用HttpURLConnection(可用于向指定网站发送GET请求、post请求)来获取目标长链接对应的目标网页的源码,采用此种方式不需要导入别的包。在本申请实施例的另一种实施方式中,可以采用jsoup(HTML解析器),需要代入jsoup jar包,便可以通过目标长链接获取其对应目标网页的源码。在得到目标网页的源码后,可以通过路径语言(XML Path Language,简称XML)得到商品信息字符对应展示在目标网页的商品信息,可以将得到的商品信息作为目标发文内容。
例如,在本申请实施例中,通过前述操作最终得到的目标长链接可以是“https://detail.tmall.com/item.htm?spm=a230r.1.14.6.45f35190ebLhqo&id=596741547750&cm_id=140105335569ed55e27b&abbucket=19”,其中,商品信息字符可以是“id=596741547750”,该商品字符信息可以是指目标长链接对应目标页面中展示的某品牌洗发水的名称,可以通过前述操作获取该目标长链接的源码,进而能够得到“id=596741547750”对应的商品信息(即某品牌洗发水的名称),可以将某品牌洗发水的名称作为目标发文内容存储至redis中对应的目标用户所在位置,以便在该目标用户的多个博文内容中的多个目标发文内容被获取后,商家能够便捷地查看该目标用户的发文情况,以便进行后续处理,例如是否选择目标用户作为商家的推广用户,或者对已经雇佣的目标用户的发文内容进行监督等。
在前述基础上,所述目标长链接可以为多个,本申请实施例提供一种接收所述服务器发送的所述目标长链接,并根据所述目标长链接中的所述商品信息字符得到目标发文内容的示例,可以通过以下步骤实现。
将多个所述目标长链接进行分组,得到多个待处理长链接组。
将所述多个待处理长链接组进行异步爬虫处理,得到多个所述目标发文内容。
为了能够加快处理效率,本申请实施例中可以采用异步爬虫处理,由于同步爬虫每次抓取都得等待上一次得到结果,因此爬取速度较慢,异步爬虫则大大减少了IO(Input/Output,输入输出)等待的时间,因此,在本申请实施例中处理多个目标长链接时,采取异步爬虫,能够大大缩短网络请求的时间。
本申请实施例提供一种发文内容获取装置110,如图5所示,发文内容获取装置110包括:
获取模块1101,用于获取目标用户发送的多个博文内容。
转换模块1102,用于当所述多个博文内容中包括短链接时,提取所述短链接,并将所述短链接发送至服务器,以使所述服务器将所述短链接转化为目标长链接,其中,所述目标长链接中包括商品信息字符。
接收模块1103,用于接收所述服务器发送的所述目标长链接,并根据所述目标长链接中的所述商品信息字符得到目标发文内容。
进一步地,所述转换模块1102具体用于:
将所述短链接发送至服务器,以使所述服务器将所述短链接转换为待处理长链接;接收所述服务器发送的所述待处理长链接;当所述待处理长链接不包括预设中间信息,或者通过所述待处理长链接得到所述商品信息字符时,根据所述待处理长链接得到所述目标长链接;当所述待处理长链接包括预设中间信息,且通过所述待处理长链接得不到所述商品信息字符时,将所述短链接发送至所述服务器,以使所述服务器将所述短链接发送至浏览器页面加载得到所述目标长链接。
进一步地,所述待处理长链接包括待确定字符信息,所述转换模块1102进一步具体用于:
判断所述待处理长链接中的待确定字符信息是否包括预设中间信息;若否,则确定所述待确定字符信息为所述商品信息字符,将所述待处理长链接作为所述目标长链接;若是,则确定所述待确定字符信息不为所述商品信息字符,并对所述待处理长链接进行重定向,以获取所述商品信息字符,得到所述目标长链接。
进一步地,所述转换模块1102进一步具体用于:
根据所述待处理长链接生成重定向响应,并将所述重定向响应发送至所述服务器,以使所述服务器根据所述重定向响应获取重定向链接,其中,所述重定向链接包括重定向商品信息字符;接收所述服务器发送的所述重定向链接,当所述重定向链接中的所述重定向商品信息字符包括所述商品信息字符时,则将所述重定向链接作为所述目标长链接。
进一步地,所述短链接的数据格式为可扩展标记语言格式或对象简谱数据格式,所述转换模块1102进一步具体用于:
当所述短链接的数据格式为可扩展标记语言格式时,发送第一转换指令和所述短链接至所述服务器,以使所述服务器根据所述第一转换指令将所述短链接转换为待处理长链接;当所述短链接的数据格式为对象简谱数据格式时,发送第二转换指令和所述短链接至所述服务器,以使所述服务器根据所述第二转换指令将所述短链接转换为待处理长链接。
进一步地,所述目标发文内容展示于目标网页,所述接收模块1103具体用于:
根据所述目标长链接,获取所述目标网页的源码;根据所述目标网页的源码,通过路径语言获取所述商品信息字符对应的商品信息;从所述商品信息中获取所述目标发文内容。
进一步地,所述目标长链接为多个,所述接收模块1103具体还用于:
将多个所述目标长链接进行分组,得到多个待处理长链接组;将所述多个待处理长链接组进行异步爬虫处理,得到多个所述目标发文内容。
本申请实施例提供的发文内容获取装置110的实现原理请参照前述发文内容获取方法的实现原理,在此不再赘述。
本申请实施例提供一种计算机设备100,所述计算机设备100包括处理器及存储有计算机指令的非易失性存储器,所述计算机指令被所述处理器执行时,所述计算机设备100执行前述的发文内容获取方法。如图6所示,图6为本申请实施例提供的计算机设备100的结构框图。所述计算机设备100包括发文内容获取装置110、存储器111、处理器112及通信单元113。
所述存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述发文内容获取装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器111中或固化在所述计算机设备100的操作系统(operatingsystem,OS)中的软件功能模块。所述处理器112用于执行所述存储器111中存储的可执行模块,例如所述发文内容获取装置110所包括的软件功能模块及计算机程序等。
其中,所述存储器111可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
本申请实施例提供一种可读存储介质,所述可读存储介质包括计算机程序,所述计算机程序运行时控制所述可读存储介质所在计算机设备前述的发文内容获取方法。
综上所述,本申请实施例提供了一种发文内容获取方法、装置、计算机设备和可读存储介质,通过获取目标用户发送的多个博文内容,并从多个博文内容中提取出短链接,再将短链接发送至服务器巧妙地转换为目标长链接,便可从目标长链接中获取目标发文内容,能够便捷地获取目标用户发送的目标发文内容。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种发文内容获取方法,其特征在于,包括:
获取目标用户发送的多个博文内容;
当所述多个博文内容中包括短链接时,提取所述短链接,并将所述短链接发送至服务器,以使所述服务器将所述短链接转化为目标长链接,其中,所述目标长链接中包括商品信息字符;
接收所述服务器发送的所述目标长链接,并根据所述目标长链接中的所述商品信息字符得到目标发文内容,其中,所述目标发文内容为所述目标长链接中的所述商品信息字符对应的商品信息;
其中,所述将所述短链接发送至服务器,以使所述服务器将所述短链接转化为目标长链接的步骤,包括:
将所述短链接发送至服务器,以使所述服务器通过调用微博的API将所述短链接转换为待处理长链接;
接收所述服务器发送的所述待处理长链接;
当所述待处理长链接不包括预设中间信息,则将所述待处理长链接作为所述目标长链接;当所述待处理长链接包括预设中间信息,对所述待处理长链接进行重定向,得到所述目标长链接,其中,所述预设中间信息为表示链接中不包括所述商品信息字符的信息;
当所述待处理长链接包括预设中间信息,且通过所述待处理长链接得不到所述商品信息字符时,将所述短链接发送至所述服务器,以使所述服务器将所述短链接发送至浏览器页面加载得到所述目标长链接。
2.根据权利要求1所述的方法,其特征在于,所述待处理长链接包括待确定字符信息;
所述当所述待处理长链接不包括预设中间信息,则将所述待处理长链接作为所述目标长链接;当所述待处理长链接包括预设中间信息,对所述待处理长链接进行重定向,得到所述目标长链接的步骤,包括:
判断所述待处理长链接中的待确定字符信息是否包括预设中间信息;
若否,则确定所述待确定字符信息为所述商品信息字符,将所述待处理长链接作为所述目标长链接;
若是,则确定所述待确定字符信息不为所述商品信息字符,并对所述待处理长链接进行重定向,以获取所述商品信息字符,得到所述目标长链接。
3.根据权利要求2所述的方法,其特征在于,所述对所述待处理长链接进行重定向,以获取所述商品信息字符,得到所述目标长链接的步骤,包括:
根据所述待处理长链接生成重定向响应,并将所述重定向响应发送至所述服务器,以使所述服务器根据所述重定向响应获取重定向链接,其中,所述重定向链接包括重定向商品信息字符;
接收所述服务器发送的所述重定向链接,当所述重定向链接中的所述重定向商品信息字符包括所述商品信息字符时,则将所述重定向链接作为所述目标长链接。
4.根据权利要求1所述的方法,其特征在于,所述短链接的数据格式为可扩展标记语言格式或对象简谱数据格式,所述将所述短链接发送至服务器,以使所述服务器将所述短链接转换为待处理长链接的步骤,包括:
当所述短链接的数据格式为可扩展标记语言格式时,发送第一转换指令和所述短链接至所述服务器,以使所述服务器根据所述第一转换指令将所述短链接转换为待处理长链接;
当所述短链接的数据格式为对象简谱数据格式时,发送第二转换指令和所述短链接至所述服务器,以使所述服务器根据所述第二转换指令将所述短链接转换为待处理长链接。
5.根据权利要求1所述的方法,其特征在于,所述目标发文内容展示于目标网页;
所述接收所述服务器发送的所述目标长链接,并根据所述目标长链接中的所述商品信息字符得到目标发文内容的步骤,包括:
根据所述目标长链接,获取所述目标网页的源码;
根据所述目标网页的源码,通过路径语言获取所述商品信息字符对应的商品信息;
从所述商品信息中获取所述目标发文内容。
6.根据权利要求1所述的方法,其特征在于,所述目标长链接为多个,所述接收所述服务器发送的所述目标长链接,并根据所述目标长链接中的所述商品信息字符得到目标发文内容,包括:
将多个所述目标长链接进行分组,得到多个待处理长链接组;
将所述多个待处理长链接组进行异步爬虫处理,得到多个所述目标发文内容。
7.一种发文内容获取装置,其特征在于,包括:
获取模块,用于获取目标用户发送的多个博文内容;
转换模块,用于当所述多个博文内容中包括短链接时,提取所述短链接,并将所述短链接发送至服务器,以使所述服务器将所述短链接转化为目标长链接,其中,所述目标长链接中包括商品信息字符;
接收模块,用于接收所述服务器发送的所述目标长链接,并根据所述目标长链接中的所述商品信息字符得到目标发文内容,其中,所述目标发文内容为所述目标长链接中的所述商品信息字符对应的商品信息;
其中,所述转换模块具体用于:
将所述短链接发送至服务器,以使所述服务器通过调用微博的API将所述短链接转换为待处理长链接;
接收所述服务器发送的所述待处理长链接;
当所述待处理长链接不包括预设中间信息,则将所述待处理长链接作为所述目标长链接;当所述待处理长链接包括预设中间信息,对所述待处理长链接进行重定向,得到所述目标长链接,其中,所述预设中间信息为表示链接中不包括所述商品信息字符的信息;
当所述待处理长链接包括预设中间信息,且通过所述待处理长链接得不到所述商品信息字符时,将所述短链接发送至所述服务器,以使所述服务器将所述短链接发送至浏览器页面加载得到所述目标长链接。
8.一种计算机设备,其特征在于,所述计算机设备包括处理器及存储有计算机指令的非易失性存储器,所述计算机指令被所述处理器执行时,所述计算机设备执行权利要求1-6中任意一项所述的发文内容获取方法。
9.一种可读存储介质,其特征在于,所述可读存储介质包括计算机程序,所述计算机程序运行时控制所述可读存储介质所在计算机设备执行权利要求1-6中任意一项所述的发文内容获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911299106.5A CN111047413B (zh) | 2019-12-17 | 2019-12-17 | 发文内容获取方法、装置、计算机设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911299106.5A CN111047413B (zh) | 2019-12-17 | 2019-12-17 | 发文内容获取方法、装置、计算机设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111047413A CN111047413A (zh) | 2020-04-21 |
CN111047413B true CN111047413B (zh) | 2023-11-07 |
Family
ID=70236837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911299106.5A Active CN111047413B (zh) | 2019-12-17 | 2019-12-17 | 发文内容获取方法、装置、计算机设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111047413B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115601771A (zh) * | 2022-12-01 | 2023-01-13 | 广州数说故事信息科技有限公司(Cn) | 基于多模态数据的商单识别方法、装置、介质及终端设备 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102984287A (zh) * | 2012-11-19 | 2013-03-20 | 青岛海信传媒网络技术有限公司 | 微博应用服务器及其微博平台中链接地址的分享方法 |
CN105718578A (zh) * | 2016-01-22 | 2016-06-29 | 北京三快在线科技有限公司 | 短链接生成方法及装置 |
CN106202187A (zh) * | 2016-06-28 | 2016-12-07 | 北京京东尚科信息技术有限公司 | 一种在浏览器中处理短链接的方法和装置 |
CN106250498A (zh) * | 2016-08-02 | 2016-12-21 | 北京京东尚科信息技术有限公司 | 实现多系统页面切换的方法、设备及系统 |
CN106375189A (zh) * | 2016-08-31 | 2017-02-01 | 北京炎黄新星网络科技有限公司 | 一种长短链转换的方法和系统 |
CN106933854A (zh) * | 2015-12-30 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 短链接处理方法、装置及服务器 |
CN107733972A (zh) * | 2017-08-28 | 2018-02-23 | 阿里巴巴集团控股有限公司 | 一种短链接解析方法、装置及设备 |
CN108427751A (zh) * | 2018-03-13 | 2018-08-21 | 深圳乐信软件技术有限公司 | 一种短链接跳转方法、装置及电子设备 |
CN109190409A (zh) * | 2018-09-14 | 2019-01-11 | 北京京东金融科技控股有限公司 | 记录信息传播路径的方法、装置、设备及可读存储介质 |
WO2019095416A1 (zh) * | 2017-11-16 | 2019-05-23 | 平安科技(深圳)有限公司 | 信息推送方法、装置、终端设备及存储介质 |
CN109918586A (zh) * | 2019-01-21 | 2019-06-21 | 广东万丈金数信息技术股份有限公司 | 短链接跳转方法、装置、短链接服务器和存储介质 |
CN110110974A (zh) * | 2019-04-17 | 2019-08-09 | 福建天泉教育科技有限公司 | 关键意见领袖的识别方法及计算机可读存储介质 |
CN110120115A (zh) * | 2019-05-21 | 2019-08-13 | 秒针信息技术有限公司 | 一种抽奖的方法、装置、设备和介质 |
CN110134889A (zh) * | 2019-04-30 | 2019-08-16 | 中国联合网络通信集团有限公司 | 短链接生成方法、装置及服务器 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10437903B2 (en) * | 2013-09-20 | 2019-10-08 | Jesse Lakes | Redirection service profiling |
-
2019
- 2019-12-17 CN CN201911299106.5A patent/CN111047413B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102984287A (zh) * | 2012-11-19 | 2013-03-20 | 青岛海信传媒网络技术有限公司 | 微博应用服务器及其微博平台中链接地址的分享方法 |
CN106933854A (zh) * | 2015-12-30 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 短链接处理方法、装置及服务器 |
CN105718578A (zh) * | 2016-01-22 | 2016-06-29 | 北京三快在线科技有限公司 | 短链接生成方法及装置 |
CN106202187A (zh) * | 2016-06-28 | 2016-12-07 | 北京京东尚科信息技术有限公司 | 一种在浏览器中处理短链接的方法和装置 |
CN106250498A (zh) * | 2016-08-02 | 2016-12-21 | 北京京东尚科信息技术有限公司 | 实现多系统页面切换的方法、设备及系统 |
CN106375189A (zh) * | 2016-08-31 | 2017-02-01 | 北京炎黄新星网络科技有限公司 | 一种长短链转换的方法和系统 |
CN107733972A (zh) * | 2017-08-28 | 2018-02-23 | 阿里巴巴集团控股有限公司 | 一种短链接解析方法、装置及设备 |
WO2019095416A1 (zh) * | 2017-11-16 | 2019-05-23 | 平安科技(深圳)有限公司 | 信息推送方法、装置、终端设备及存储介质 |
CN108427751A (zh) * | 2018-03-13 | 2018-08-21 | 深圳乐信软件技术有限公司 | 一种短链接跳转方法、装置及电子设备 |
CN109190409A (zh) * | 2018-09-14 | 2019-01-11 | 北京京东金融科技控股有限公司 | 记录信息传播路径的方法、装置、设备及可读存储介质 |
CN109918586A (zh) * | 2019-01-21 | 2019-06-21 | 广东万丈金数信息技术股份有限公司 | 短链接跳转方法、装置、短链接服务器和存储介质 |
CN110110974A (zh) * | 2019-04-17 | 2019-08-09 | 福建天泉教育科技有限公司 | 关键意见领袖的识别方法及计算机可读存储介质 |
CN110134889A (zh) * | 2019-04-30 | 2019-08-16 | 中国联合网络通信集团有限公司 | 短链接生成方法、装置及服务器 |
CN110120115A (zh) * | 2019-05-21 | 2019-08-13 | 秒针信息技术有限公司 | 一种抽奖的方法、装置、设备和介质 |
Non-Patent Citations (1)
Title |
---|
基于混合TCP-UDP的HTTP协议实现方法;王超;单片机与嵌入式系统应用(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111047413A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10635735B2 (en) | Method and apparatus for displaying information | |
CN108805594B (zh) | 信息推送方法和装置 | |
US10277702B2 (en) | Method and apparatus for accessing an enterprise resource planning system via a mobile device | |
US9177076B2 (en) | Reducing ad impact to browser onload event | |
US20120234907A1 (en) | System and process for managing hosting and redirecting the data output of a 2-D QR barcode | |
CN108334517A (zh) | 一种网页渲染方法及相关设备 | |
US11521169B2 (en) | Method and apparatus for producing order | |
US10284686B2 (en) | Server, client, system and method for preloading browsed page in browser | |
CN107153716B (zh) | 网页内容提取方法和装置 | |
CN108932640B (zh) | 用于处理订单的方法和装置 | |
CN110442286B (zh) | 一种页面展示方法、装置及电子设备 | |
CN107305528B (zh) | 应用测试方法和装置 | |
CN111443909A (zh) | 用于生成页面的方法及装置 | |
CN112947900A (zh) | web应用开发方法、装置、服务器及开发终端 | |
CN111047413B (zh) | 发文内容获取方法、装置、计算机设备和可读存储介质 | |
CN104156421B (zh) | 页面的展现方法、装置及系统 | |
KR100432365B1 (ko) | 추천 마케팅 방법 | |
CN107329981B (zh) | 页面检测的方法和装置 | |
CN116720489B (zh) | 页面填充方法及装置、电子设备和计算机可读存储介质 | |
JP7145215B2 (ja) | ブラウザ管理システム、ブラウザ管理方法、ブラウザ管理プログラム、およびクライアントプログラム | |
US20160253419A1 (en) | System and method for information pushing and redirecting | |
CN107656985B (zh) | 网页查询方法及其系统 | |
CN113010149A (zh) | 应用加载方法、装置、用户终端和服务器 | |
CN115202756A (zh) | 基于Vue的组件加载方法、系统和电子设备 | |
US20170031884A1 (en) | Automated dependency management based on page components |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |