CN104021124A - 用于处理网页数据的方法、装置和系统 - Google Patents
用于处理网页数据的方法、装置和系统 Download PDFInfo
- Publication number
- CN104021124A CN104021124A CN201310064517.2A CN201310064517A CN104021124A CN 104021124 A CN104021124 A CN 104021124A CN 201310064517 A CN201310064517 A CN 201310064517A CN 104021124 A CN104021124 A CN 104021124A
- Authority
- CN
- China
- Prior art keywords
- link
- grouping
- webpage
- group
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/954—Navigation, e.g. using categorised browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本公开内容涉及用于处理网页数据的方法、装置和系统。该方法包括:响应于一网页被打开,向网络侧设备发送包含在所述网页中的链接;从所述网络侧设备接收组标识,所述组标识是由所述网络侧设备根据所述链接确定的、用于指示所述链接所属的分组;确定是否有已浏览链接属于所述组标识指示的分组;以及响应于确定有已浏览链接属于所述组标识指示的分组,提示所述包含在所述网页中的链接所指向的网页内容已被浏览过。借助于网络侧设备确定的组标识和用户终端本地的链接,能够提前通知用户指向重复网页内容的链接,从而有效地避免用户重复浏览相同或相近的内容。因此,能够节省系统资源,并提高用户体验。
Description
技术领域
本发明涉及信息处理领域,并且更具体地,涉及信息处理领域中用于处理网页数据的方法、装置和系统。
背景技术
随着网络技术的发展和网络资源的丰富,越来越多的用户选择通过网络来获取信息。然而,不同的链接可能指向具有相同或相近内容的网页,这使得用户可能重复浏览基本上相同的信息,从而浪费用户的时间并影响用户的体验。
例如,在A网页上可能存在多个涉及新闻的链接,在B网页上可能存在多个涉及新闻的链接。如果A网页上的某链接与B网页上的某链接指向的网页内容相同或相近,但两者题目不同,那么,在用户已浏览了A网页上的该链接之后,由于用户很难根据链接来提前判断两个链接指向的内容是否相似,因此当用户再次点开B网页上的该链接时,用户将发现B网页上的该链接指向的内容已经被浏览过。这样的重复内容将浪费用户的时间并影响用户的体验。而且,诸如计算机、移动设备之类的电子设备对于重复内容的多次显示,不仅效率低下,而且将浪费无需为多次显示重复内容而消耗的系统资源。
发明内容
本发明实施例提供了用于处理网页数据的方法、装置和系统,能够有效地避免网络重复处理用户对相同或相近的网页内容的点击,从而节省系统资源,并提高网络处理效率和运行速度。
根据本发明的一个方面,提供了一种用于处理网页数据的方法,包括:响应于一网页被打开,向网络侧设备发送包含在所述网页中的链接;从所述网络侧设备接收组标识,所述组标识是由所述网络侧设备根据所述链接确定的、用于指示所述链接所属的分组;确定是否有已浏览链接属于所述组标识指示的分组;以及响应于确定有已浏览链接属于所述组标识指示的分组,提示所述包含在所述网页中的链接所指向的网页内容已被浏览过。
根据本发明的另一方面,提供了一种用于处理网页数据的方法,包括:接收来自用户终端的包含在网页中的链接;以及响应于确定所述链接属于至少一个预定分组中的一个预定分组,将该预定分组的组标识发送给所述用户终端,以使所述用户终端响应于确定有已浏览链接属于所述组标识指示的分组,提示所述包含在网页中的链接所指向的网页内容已被浏览过。
根据本发明的再一方面,提供了一种用于处理网页数据的装置,包括:发送部件,被配置为响应于一网页被打开,向网络侧设备发送包含在所述网页中的链接;接收部件,被配置为从所述网络侧设备接收组标识,所述组标识是由所述网络侧设备根据所述链接确定的、用于指示所述链接所属的分组;确定部件,被配置为确定是否有已浏览链接属于所述组标识指示的分组;以及提示部件,被配置为响应于确定有已浏览链接属于所述组标识指示的分组,提示所述包含在所述网页中的链接所指向的网页内容已被浏览过。
根据本发明的又一方面,提供了一种用于处理网页数据的装置,包括:接收部件,被配置为接收来自用户终端的包含在网页中的链接;以及发送部件,被配置为响应于确定所述链接属于至少一个预定分组中的一个预定分组,将该预定分组的组标识发送给所述用户终端,以使所述用户终端响应于确定有已浏览链接属于所述组标识指示的分组,提示所述包含在网页中的链接所指向的网页内容已被浏览过。
根据本发明的又一方面,提供了一种用于处理网页数据的系统,包括用户终端和网络侧设备。所述用户终端被配置为响应于一网页被打开,向所述网络侧设备发送包含在所述网页中的链接;从所述网络侧设备接收组标识,所述组标识是由所述网络侧设备根据所述链接确定的、用于指示所述链接所属的分组;确定是否有已浏览链接属于所述组标识指示的分组;响应于确定有已浏览链接属于所述组标识指示的分组,提示所述包含在所述网页中的链接所指向的网页内容已被浏览过。所述网络侧设备被配置为接收来自所述用户终端的包含在所述网页中的所述链接;响应于确定所述链接属于至少一个预定分组中的一个预定分组,将该预定分组的组标识发送给所述用户终端。
根据上述技术方案,通过利用被打开网页中所包含的链接及其所属分组的组标识,可以确定是否有已浏览链接也属于该分组,并在已浏览链接属于该分组的情况下向用户提示该链接指向的网页内容已被浏览过。这样,借助于网络侧设备确定的组标识和用户终端本地的已浏览链接,能够提前通知用户指向重复网页内容的链接,从而有效地避免网络重复处理用户对相同或相近的内容的点击。因此,能够节省系统资源,并提高网络处理速度,提升网络处理能力。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1表示根据本发明一实施例的云计算节点;
图2表示根据本发明一实施例的云计算环境;
图3表示根据本发明一实施例的抽象模型层;
图4示出了根据本发明实施例的用于处理网页数据的方法的流程图;
图5示出了根据本发明实施例的指向具有相同或相近网页内容的链接的例子。
图6示出了根据本发明实施例的用于确定已浏览链接属于组标识指示的分组的方法的流程图;
图7示出了根据本发明实施例的用于生成字符串编码和组标识的计算结构的例子的示意图;
图8示出了根据本发明实施例的存储已浏览链接的方式的例子。
图9示出了根据本发明实施例的用于处理网页数据的另一方法的流程图;
图10示出了根据本发明实施例的用于确定分组及其对应的组标识的方法的流程图;
图11示出了根据本发明实施例的用于处理网页数据的再一方法的流程图;
图12示出了根据本发明实施例的用于处理网页数据的装置的结构框图;
图13示出了根据本发明实施例的用于处理网页数据的另一装置的结构框图;
图14示出了根据本发明实施例的用于处理网页数据的再一装置的结构框图;
图15示出了根据本发明实施例的用于处理网页数据的又一装置的结构框图;
图16示出了根据本发明实施例的用于处理网页数据的系统的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整的传达给本领域的技术人员。
首先应当理解,尽管本公开包括关于云计算的详细描述,但其中记载的技术方案的实现却不限于云计算环境,而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。
云计算是一种服务交付模式,用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源,例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。
特征包括:
按需自助式服务:云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。
广泛的网络接入:计算能力可以通过标准机制在网络上获取,这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。
资源池:提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者,其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下,消费者不能控制或甚至并不知晓所提供的资源的确切位置,但可以在较高抽象程度上指定位置(例如国家、州或数据中心),因此具有位置无关性。
迅速弹性:能够迅速、有弹性地(有时是自动地)部署计算能力,以实现快速扩展,并且能迅速释放来快速缩小。在消费者看来,用于部署的可用计算能力往往显得是无限的,并能在任意时候都能获取任意数量的计算能力。
可测量的服务:云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力,自动地控制和优化资源效用。可以监测、控制和报告资源使用情况,为服务提供者和消费者双方提供透明度。
服务模型如下:
软件即服务(SaaS):向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外,消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。
平台即服务(PaaS):向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用,这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构,但对其部署的应用具有控制权,对应用托管环境配置可能也具有控制权。
基础架构即服务(IaaS):向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构,但是对操作系统、存储和其部署的应用具有控制权,对选择的网络组件(例如主机防火墙)可能具有有限的控制权。
部署模型如下:
私有云:云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。
共同体云:云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。
公共云:云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。
混合云:云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成,这些云依然是独特的实体,但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。
云计算环境是面向服务的,特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。
现在参考图1,其中显示了云计算节点的一个例子。图1显示的云计算节点10仅仅是适合的云计算节点的一个示例,不应对本发明实施例的功能和使用范围带来任何限制。总之,云计算节点10能够被用来实现和/或执行以上所述的任何功能。
云计算节点10具有计算机系统/服务器12,其可与众多其它通用或专用计算系统环境或配置一起操作。众所周知,适于与计算机系统/服务器12一起操作的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任意系统的分布式云计算技术环境,等等。
计算机系统/服务器12可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括执行特定的任务或者实现特定的抽象数据类型的例程、程序、目标程序、组件、逻辑、数据结构等。计算机系统/服务器12可以在通过通信网络链接的远程处理设备执行任务的分布式云计算环境中实施。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
如图1所示,云计算节点10中的计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是能够被计算机系统/服务器12访问的任意可获得的介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,其它硬件和/或软件模块可以与计算机系统/服务器12一起操作,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
现在参考图2,其中显示了示例性的云计算环境50。如图所示,云计算环境50包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点10,本地计算设备例如可以是个人数字助理(PDA)或移动电话54A,台式电脑54B、笔记本电脑54C和/或汽车计算机系统54N。云计算节点10之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点10进行物理或虚拟分组(图中未显示)。这样,云的消费者无需在本地计算设备上维护资源就能请求云计算环境50提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解,图2显示的各类计算设备54A-N仅仅是示意性的,云计算节点10以及云计算环境50可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。
现在参考图3,其中显示了云计算环境50(图2)提供的一组功能抽象层。首先应当理解,图3所示的组件、层以及功能都仅仅是示意性的,本发明的实施例不限于此。如图3所示,提供下列层和对应功能:
硬件和软件层60包括硬件和软件组件。硬件组件的例子包括:主机,例如IBMzSeries系统;基于RISC(精简指令集计算机)体系结构的服务器,例如IBM pSeries系统;IBM xSeries系统;IBM BladeCenter系统;存储设备;网络和网络组件。软件组件的例子包括:网络应用服务器软件,例如IBMWebSphere应用服务器软件;数据库软件,例如IBM DB2数据库软件。(IBM,zSeries,pSeries,xSeries,BladeCenter,WebSphere以及DB2是国际商业机器公司在全世界各地的注册商标)。
虚拟层62提供一个抽象层,该层可以提供下列虚拟实体的例子:虚拟服务器、虚拟存储、虚拟网络(包括虚拟私有网络)、虚拟应用和操作系统,以及虚拟客户端。
在一个示例中,管理层64可以提供下述功能:资源供应功能:提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取;计量和定价功能:在云计算环境内对资源的使用进行成本跟踪,并为此提供帐单和发票。在一个例子中,该资源可以包括应用软件许可。安全功能:为云的消费者和任务提供身份认证,为数据和其它资源提供保护。用户门户功能:为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能:提供云计算资源的分配和管理,以满足必需的服务水平。服务水平协议(SLA)计划和履行功能:为根据SLA预测的对云计算资源未来需求提供预先安排和供应。
工作负载层66提供云计算环境可能实现的功能的示例。在该层中,可提供的工作负载或功能的示例包括:地图绘制与导航;软件开发及生命周期管理;虚拟教室的教学提供;数据分析处理;交易处理;以及网页内容重复提示。
首先参照图4,描述根据本发明实施例的用于处理网页数据的方法200的流程图。
如图4所示,在步骤S210中,响应于一网页被打开,向网络侧设备发送包含在该网页中的链接;在步骤S215中,从网络侧设备接收组标识,所述组标识是由网络侧设备根据所述链接确定的、用于指示所述链接所属的分组;在步骤S220中,确定是否有已浏览链接属于该组标识指示的分组;以及在步骤S230中,响应于确定有已浏览链接属于所述组标识指示的分组,提示所述包含在所述网页中的链接所指向的网页内容已被浏览过。
具体而言,例如,方法200可以由能够与网络侧设备通信的诸如计算机、移动电话之类的用户终端执行。更具体地,方法200可以由安装在用户终端中能够与网络侧设备通信的客户端执行。该客户端可以是浏览器,也可以是浏览器的插件。网络侧设备可以是网络中的一个设备(例如服务器),也可以是网络(例如云网络)中的多个设备构成的整体。例如,网络侧设备可以是图2中的一个或多个云计算节点10,用户终端可以是图2中的个人数字助理(PDA)或移动电话54A,台式电脑54B、笔记本电脑54C以及汽车计算机系统54N中的任一个。
当一个网页被打开时,用户终端可以通过解析该网页的诸如HTML(HyperText Markup Language,超文本标记语言)的编程语言来确定该网页中包含的链接,并将链接发送给网络侧设备。这里的“链接”用于指示从一个网页到另一个网页的连接关系。通过点击一个网页上的链接,可以打开该链接指向的另一个网页。链接在网页上可以表现为字符串、文本、图片、符号等。从技术角度来看,链接可以是诸如URL(Uniform Resource Locator,统一资源定位符)、URI(Uniform Resource Identifier,统一资源标识符)、IP地址之类的用于唯一识别该链接所指向内容的标识符。为了描述的方便,下文中以URL作为链接的例子进行描述。例如,一个新闻链接在网页上可以表现为“XX技术取得重大突破”,从技术角度来看该新闻链接可以是“http://news.AAA.com/123.html”。
网络侧设备接收到用户终端发送的链接之后,可以通过查找预先存储在网络侧设备的属于同一分组的链接和该分组的组标识之间的对应关系,来确定用户终端发送的链接属于哪个分组,并将相应分组的组标识返回给用户终端。
被划分在同一分组中的链接指向具有相同或相近内容的网页。例如,在图5中示出了划分在组标识为G1的分组中的两个链接URL1和URL2分别指向的网页P1和P2的内容的例子。URL1出现在网页W1中,URL2出现在网页W2中。URL1在网页W1中表现为“标题1”,URL2在网页W2中表现为“标题2”,“标题1”和“标题2”可以不同。从技术角度来看,例如,URL1可以是“http://news.AAA.com/123.html”,URL2可以是“http://text.BBB.com/af56.html”。当在网页W1中点击表现为“标题1”的URL1时,网页P1打开。当在网页W2中点击表现为“标题2”的URL2时,网页P2打开。在该例子中,网页P1和P2具有相同或相近的内容。此外,URL1与URL2甚至可以相同,在这种情况下,URL1指向的网页P1与URL2指向的网页P2,是同一个网页。
目前已经存在多种已知方法来判断网页内容是否相同或相近。例如,对于给定的两个网页P1和P2,首先将网页P1和P2中诸如图片、图标之类的非文本内容去除,然后对网页P1和P2中的文字内容进行比对,当基本上相同的内容超过某一比例(例如全部文本内容的80%)时,认为这两个网页的内容相同或相近。基本上相同的内容可以是完全一致的内容,也可以是差异程度在预定范围内的内容,还可以是在界定一句话的前后两个标点符号之间的预定个数个文本一致的该句话的内容。
用户终端接收到组标识之后,可以确定已浏览链接中是否存在一个已浏览链接属于接收到的组标识指示的分组,例如可以通过图6所示的方法300中的步骤来实现。
在步骤S310中,将与已浏览链接对应的字符串编码和所述组标识进行比较。其中,与已浏览链接对应的字符串编码是通过对该已浏览链接利用与根据划分在同一分组中的所有链接得到该分组的组标识的函数相同的函数而得到的。
具体而言,存储在用户终端中的与已浏览链接对应的字符串编码和存储在网络侧设备中的分组的组标识是采用相同的函数生成的。该相同的函数分别存储在用户终端和网络侧设备中。例如,可以采用与Bloom滤波器类似的计算结构来生成字符串编码和组标识。
根据本发明的实施例,计算字符串编码和组标识的函数可以是至少一个哈希(Hash)函数,每个哈希函数的形式不同。当处理一个链接时,可以将该链接分别输入到每个哈希函数。每个哈希函数对该链接的ASCII编码、IP地址编码等唯一表示该链接的数据进行处理,并输出基于该链接的值。哈希函数输出的值用于指导如何生成字符串编码或组标识。例如,可以采用图6所示的计算结构来生成字符串编码或组标识。
在生成一个链接对应的字符串编码的情况下,预先为该链接设置一个m位的全0的初始字符串编码。将该链接(例如URL)分别输入到k个哈希函数。哈希函数1至哈希函数k可以分别输出取值范围在0至(m-1)内的整数h1至hk。h1至hk中的每一个将初始字符串编码中的相应位置置1。另一方面,如果初始字符串编码的各位置全1,那么h1至hk中的每一个将初始字符串编码中的相应位置置0。
举例而言,当用户终端处存储的作为“http://news.AAA.com/123.html”的已浏览链接URL1对应的ASCII编码为“FC068E932”时,将该ASCII编码输入3个哈希函数,分别得到3、7和9。那么,初始字符串编码“0000-0000-0000”被设置为“0001-0001-0100”,作为链接URL1对应的字符串编码。
在生成一个分组的组标识的情况下,预先为该分组设置一个m位的全0的初始字符串编码。针对该分组中包含的所有n个链接中的每一个,将每个链接分别输入到k个哈希函数。对于每个链接,哈希函数1至哈希函数k可以分别输出取值范围在0至(m-1)内的整数h1至hk。h1至hk中的每一个将初始字符串编码中的相应位置置1。如果多个链接经过k个哈希函数处理而需要对同一位置置1,那么该位置只被置1一次。也就是说,如果该位置初次被置1以后,就不再对其进行改变。与上述类似,另一方面,如果初始字符串编码的各位置全1,那么h1至hk中的每一个将初始字符串编码中的相应位置置0。
举例而言,当一个分组中包含的作为“http://news.AAA.com/123.html”的链接URL2和作为“http://text.BBB.com/af56.html”的链接URL3对应的ASCII编码分别为“FC068E932”和“AEF586G0C”时,将这两个ASCII编码依次输入3个哈希函数,分别得到3、7和9以及0、3和10。那么,初始字符串编码“0000-0000-0000”被设置为“1001-0001-0110”,作为该分组的组标识G1。
当用户终端处的初始字符串编码为全0时,网络侧设备处的初始字符串编码也为0。反之,当用户终端处的初始字符串编码为全1时,网络侧设备处的初始字符串编码也为1。并且,用户终端处的初始字符串编码的长度与网络侧设备处的初始字符串编码的长度相等。
在网络侧设备处通过利用k个哈希函数来将包含n个链接的分组表示为m位的向量,可以用简单的高效数据结构来表征分组中各成员,从而有利于成员关系的查询。哈希函数的使用可以将输入的链接等概率地映射到[0,m-1]的范围内,从而尽可能地避免多个不同的链接被映射到相同的编码位置而引入过大的误差。
已知的Bloom滤波器用于查询成员关系所导致的误判率(False Positive)约为(1-e-kb/m)k,当k=ln2(m/n)时可以得到最小的误判率。因此,在根据本发明实施例的结构中,可以利用上述已知结论来合理地确定m、n和k。例如,可以设置能够被划分到同一个分组中的链接为1000个,需要同时输入同一链接的哈希函数为5个,字符串编码和组标识的长度均为10000位。
在步骤S320中,将与组标识匹配的字符串编码对应的已浏览链接确定为属于该组标识指示的分组。
字符串编码和组标识匹配可以是在初始字符串编码为全0的情况下,已浏览链接对应的字符串编码被置1的位置对应于组标识中的位置也被置1。或者,字符串编码和组标识匹配可以是在初始字符串编码为全1的情况下,已浏览链接对应的字符串编码被置0的位置对应于组标识中的位置也被置0。
根据本发明的一个实施例,可以采用以下方式来确定已浏览链接是否属于组标识指示的分组。在初始字符串编码全为0的情况下,首先,可以确定在与已浏览链接对应的字符串编码中被置为1的位置(例如A1、A4和A5)。然后,确定组标识在这些位置(例如A1、A4和A5)处的值,并将所确定的值与1进行比较。如果组标识在这些位置处的值也被置为1,则确定该已浏览链接属于组标识指示的分组。另一方面,在初始字符串编码全为1的情况下,首先,可以确定在与已浏览链接对应的字符串编码中被置为0的位置(例如B1、B4和B5)。然后,确定组标识在这些位置(例如B1、B4和B5)处的值,并将所确定的值与0进行比较。如果组标识在这些位置处的值也被置为0,则确定该已浏览链接属于组标识指示的分组。
在上述例子中,由于用户终端处的已浏览链接URL1对应的字符串编码“0001-0001-0100”被置1的位置在包含链接URL2和URL3的分组的组标识G1“1001-0001-0110”中也被置1,所以该已浏览链接属于该分组。
为了能够确定步骤S310中的与链接对应的字符串编码,用户终端可以在打开一个网页时,将这个网页的链接与其对应的字符串编码关联地存储为浏览历史记录。
举例来说,在打开链接URL1“http://news.AAA.com/123.html”的网页P1的情况下(例如,点击该网页的链接,或者在地址栏中直接输入上述链接或其IP地址、域名等),该网页P1的链接URL1变为已浏览链接。此时,针对该网页的链接URL1利用如图7所示的结构计算出字符串编码“0001-0001-0100”,并将URL1和“0001-0001-0100”关联地存储为浏览历史记录。
此外,根据本发明的一个实施例,用户终端还可以将与被打开的网页有关的浏览信息与该网页的链接关联地存储。例如,用户终端可以将被打开网页的链接、该链接对应的字符串编码以及对于该网页的浏览信息共同关联存储为浏览历史记录。网页的浏览信息可以表征用户浏览该网页的时间、地点、该网页的来源等中的一项或多项。在图8中以URL1为例示出了如何存储已浏览链接。当作为“http://news.AAA.com/123.html”的URL1被点击而打开时,可以记录URL1所指向网页的来源AAA和浏览时间2013年2月7日,作为浏览信息。
在记录有浏览信息的情况下,用户终端可以通过输出与步骤S320中确定的已浏览链接相关联的浏览信息来向用户提示网页中包含的某链接指向的网页内容已经被浏览过。
例如,如图5所示,假设用户已经点击网页W1中包含的链接URL1“http://news.AAA.com/123.html”并浏览了该链接URL1指向的网页P1。当用户终端新打开另一网页W2时,用户终端将新打开的网页W2中包含的链接URL2“http://text.BBB.com/af56.html”发送到网络侧设备。网络侧设备向用户终端返回该链接URL2所属分组的组标识“1001-0001-0110”。由于在用户终端处存储的已浏览链接中链接URL1对应的字符串编码“0001-0001-0100”匹配于URL2所属分组的组标识“1001-0001-0110”,因此可以说明“URL2指向的网页内容与URL1指向的网页内容基本上相同。由于URL1对应的网页内容已被浏览,因此可以在链接URL2的“标题2”附近输出与URL1相关联的浏览信息(例如来源AAA)来向用户提示内容已经浏览过。当然,也可以通过将指向的内容已被浏览但是还未在网页上点击的链接(例如URL2改变颜色、字体、增加动画等,来提示该链接指向的网页内容已被浏览。
上述以网页W2中包含一个链接URL2为例进行了描述。当网页中包含多于一个的链接时,用户终端可以将这些链接都发送给网络侧设备,网络侧设备返回这些链接各自对应的组标识,以用于用户终端分别针对网页中的每个链接判断内容是否被浏览过。
通过借助于组标识来帮助判断不同的链接是否指向相同或相近的网页内容,可以有效地避免用户反复浏览重复内容,并避免用户终端反复显示重复内容。因此,能够节省系统资源,并提高用户体验。
上面从用户终端一侧对本发明实施例的方法进行了描述,下面将从网络侧设备一侧对本发明实施例的方法进行描述。网络侧设备可以是指任意网络中的一个或多个设备,例如可以是一个或多个服务器。当网络侧设备包含多个设备时,将这些设备作为一个整体作为该网络侧设备。例如,在云网络中,网络侧设备可以由多个节点构成。
在图9所示的根据本发明实施例的用于处理网页数据的方法500中,在步骤S510中,接收来自用户终端的包含在网页中的链接;以及在步骤S520中,响应于确定该链接属于至少一个预定分组中的一个预定分组,将该预定分组的组标识发送给用户终端,以使用户终端响应于确定有已浏览链接属于组标识指示的分组,提示包含在该网页中的该链接指向的网页内容已被浏览过。其中,属于同一个预定分组的链接指向的网页内容相同或相近。
步骤S510和S520中的操作可以参考上述结合图4至图8进行的描述。网络侧设备通过向用户终端返回网页中可能被点击的链接所属分组的组标识,可以帮助用户终端确定该链接指向的内容是否已经被浏览过,从而避免用户重复浏览相同或相近内容,并避免用户终端反复显示重复内容。从而,提高用户体验,并节省系统资源。
根据本发明的一个实施例,网络侧设备可以预先通过图10所示的方法600来确定预定分组及其对应的组标识。
在步骤S610中,对已知链接指向的网页内容进行抓取。具体而言,网络侧设备可以抓取所有已知的链接指向的全部网页内容。
在步骤S620中,通过计算步骤S610中抓取的网页内容的相似性,对这些已知链接进行分组,以使得被划分在同一分组中的链接指向的网页内容相同或相近。
计算网页内容相似性的方法可以采用上文中描述的已知方法。接着,可以将判断出的指向相同或相近网页内容的链接划分到一个分组中。可以利用已知的聚类方法根据网页内容的相似性对链接进行聚类,从而得到不同的分组。例如,可以根据网页内容的相似程度将代表不同链接的点表示在同一坐标系中,并将两点间距离在预定阈值之内的点划分到一个分组中。
在步骤S630中,对于在步骤S620中得到的每一个分组,根据该分组中的所有链接生成该分组的组标识,并将该分组的组标识与该分组中的所有链接关联地存储。
例如,可以通过对分组中的所有链接利用至少一个哈希函数来生成该分组的组标识。具体而言,可以将将划分在分组中的所有链接中的每一个输入到该至少一个哈希函数,以使得该至少一个哈希函数中的每一个输出的结果将预先针对该分组设置的全0的初始字符串编码中的相应位置置1,或者,以使得该至少一个哈希函数中的每一个输出的结果将预先针对该分组设置的全1的初始字符串编码中的相应位置置0。具体操作可以参考上文的描述。
根据本发明的一个实施例,如果网络侧设备没有找到在步骤S610中接收到的链接所属分组的组标识,也就是说该链接还没有被分类,则网络侧设备可以对该链接进行分类。具体而言,根据该链接指向的网页内容和已有的预定分组(即,步骤S610中的至少一个预定分组)中的链接指向的网页内容的相似性,对该链接进行分类。
如果该链接可以被分类到一个预定分组中,则对该预定分组的组标识进行更新。例如,将该链接也输入到如图7所示那样的计算结构,根据哈希函数的输出结果将该预定分组的组标识中的相应位置置1(在初始字符串编码为全0的情况下)或置0(在初始字符串编码为全1的情况下)。
如果该链接不能被划分在任何一个预定分组中,则针对该链接单独生成一个新的分组,并计算该新的分组的组标识,然后将该组标识与该链接关联地存储。
通过对组标识进行不断地更新,可以跟踪在网络中出现的新的内容,从而有利于更全面地判断不同的链接是否指向相同或相近的网页内容,由此更有效地向用户提示重复网页内容的出现,进一步避免用户终端打开具有重复内容的网页而浪费系统资源。
接下来,结合图11从系统层面描述根据本发明实施例的用于处理网页数据以避免重复浏览相同或相近网页内容的方法700的流程图。
在步骤S705中,用户终端打开新的网页。
在步骤S710中,用户终端列举该网页中包含的链接。
在步骤S715中,用户终端确定链接是否对应包含文本的网页内容。例如,通过参考链接的后缀等来判断是否对应包含文本的网页内容。如果链接不对应包含文本的网页内容(例如,该链接是关于音频、图片和/或视频内容的链接),则前进到步骤S720,反之,前进到步骤S725。这里,包含文本的网页内容是指主要部分或超过50%的内容是文本或其它字符串的网页内容。
在步骤S720中,丢弃不对应包含文本的网页内容的链接。
在步骤S725中,对于对应包含文本的网页内容的链接,在用户终端本地查看该链接是否已被浏览。例如,在浏览历史记录中查找该链接是否存储在其中。
在步骤S730中,如果该链接存储在浏览历史记录中,则对于该链接标注“重复内容”或其它用于提示其内容已被浏览过的信息。当然,也可以通过改变颜色、字体等来进行提示。
注意,步骤S715、S720和S725也可以不执行。
在步骤S735中,如果该链接没有存储在浏览历史记录中,则用户终端将该链接(例如URL)发送到网络侧设备(例如云网络中的一个节点或由多个节点构成的整体)。
在步骤S740中,网络侧设备确定该链接是否有对应的组标识。如果网络侧设备确定该链接有对应的组标识,则前进到步骤S745,反之,则前进到步骤S760和S775。
在步骤S745中,获取该链接对应的组标识,例如m位的利用k个哈希函数生成的字符串编码。
在步骤S750中,网络侧设备将该组标识发送给用户终端。
在步骤S755中,用户终端将该组标识和存储在本地的与已浏览链接对应的字符串编码进行比较,以确定是否存在已浏览链接属于该组标识指示的分组。
如果在步骤S755中确定存在已浏览链接属于该组标识指示的分组,则前进到步骤S730中来提示对应包含文本的网页内容的该链接指向的网页内容已被浏览过。反之,则不进行操作。
在步骤S760中,由于该链接没有对应的组标识,因此网络侧设备抓取该链接指向的网页内容。
在步骤S765中,网络侧设备根据内容相似性对该链接进行分类。
在步骤S770中,更新该链接被划分在的分组的组标识。
在步骤S775中,网络侧设备向用户终端返回用于指示该链接没有所属分组的消息,由此提示用户终端该链接指向的网页内容没有被浏览过。步骤S775只要在步骤S740之后执行即可,与其它步骤之间没有时间限制关系。当然,也可以不执行步骤S775。
在步骤S780中,用户终端将在步骤S705中新打开的网页的链接和该链接对应的字符串编码关联地存储在浏览历史记录中。虽然在图11中示出步骤S780在步骤S770之后执行,但是步骤S780只要在步骤S705之后执行即可,与其它步骤之间没有时间限制关系。
根据本发明实施例提供的用于处理网页数据的方法,可以向用户提示重复网页内容,从而可以避免用户在点击链接时看到已浏览过的内容而引起的时间浪费和体验降低,并同时可以避免用户终端打开具有重复内容的网页而造成的资源浪费。由于在用户终端和网络侧设备之间传递组标识而不是属于同一分组的链接,因此可以节省网络带宽。并且,由于可以用通过哈希函数计算得到的字符串编码来表示组信息,因此可以用尽可能少的数据量表示了尽可能多的信息,从而可以提高信息传输的效率。此外,在用户终端处,由于只需要将已浏览链接对应的字符串编码与组标识进行比较,以确定是否有相同或相近内容已被浏览,因此可以使用户终端快速进行重复内容的检测,并简化用户终端处的判断过程,从而进一步节省系统开销。另外,由于能够借助于浏览信息来可视化地对重复内容进行提示,可以在避免浏览重复内容的基础上进一步提高用户体验。
接下来,将描述根据本发明实施例的能够实现上述方法的用于处理网页数据的装置800至1100和系统1200的结构框图。
如图12所示,用于处理网页数据的装置800可以是用户终端,也可以是用户终端中安装的客户端或其他功能模块。装置800可以包括发送部件810、接收部件815、确定部件820和提示部件830。发送部件810可被配置为响应于一网页被打开,向网络侧设备发送包含在所述网页中的链接。接收部件815可被配置为从所述网络侧设备接收组标识,所述组标识是由所述网络侧设备根据所述链接确定的、用于指示所述链接所属的分组。确定部件820可被配置为确定是否有已浏览链接属于所述组标识指示的分组。提示部件830可被配置为响应于确定有已浏览链接属于所述组标识指示的分组,提示所述包含在所述网页中的链接所指向的网页内容已被浏览过。
发送部件810、接收部件815、确定部件820和提示部件830的上述和其他操作和/或功能可以参考上述参考图4至图11进行了描述,为了避免重复,在此不再赘述。
根据本发明实施例的用于处理网页数据的装置通过利用网络侧设备返回的组标识和本地的链接,能够提前通知用户指向重复网页内容的链接,从而有效地避免用户重复浏览相同或相近的内容。因此,能够节省系统资源,并提高用户体验。
图13所示的用于处理网页数据的装置900中的发送部件910、接收部件915、确定部件920和提示部件930与图12所示的装置800中的发送部件810、接收部件815、确定部件820和提示部件830基本相同。
根据本发明的一个实施例,确定部件920包括比较单元922和确定单元924。比较单元922可被配置为将与已浏览链接对应的字符串编码和所述组标识进行比较。确定单元924可被配置将与所述组标识匹配的字符串编码对应的已浏览链接确定为属于所述组标识指示的分组。其中,与已浏览链接对应的字符串编码是通过对该已浏览链接利用与根据划分在同一分组中的所有链接得到该分组的组标识的函数相同的函数而得到的。
根据本发明的一个实施例,所述函数可以为至少一个哈希函数。与已浏览链接对应的字符串编码可以通过如下方式得到:将该已浏览链接输入到所述至少一个哈希函数,以使得所述至少一个哈希函数中的每一个输出的结果将预先针对该已浏览链接设置的全为第一值的初始字符串编码中的相应位置置为第二值。并且,分组的组标识可以通过如下方式得到:将划分在同一分组中的所有链接中的每一个输入到所述至少一个哈希函数,以使得所述至少一个哈希函数中的每一个输出的结果将预先针对该分组设置的全为第一值的初始字符串编码中的相应位置置为第二值。其中,第一值和第二值可以是从0和1中选择的值,并且第二值与第一值不同。
根据本发明的一个实施例,可以将链接的ASCII编码或IP地址编码输入到所述至少一个哈希函数。
根据本发明的一个实施例,比较单元922可被配置为确定在与已浏览链接对应的字符串编码中被置为第二值的位置,以及确定组标识在所确定的位置处的值,并将所述值与第二值进行比较。在该情况下,确定单元924可被配置为响应于确定所述组标识在所确定的位置处的值也被置为第二值,确定该已浏览链接属于所述组标识指示的分组。
根据本发明的一个实施例,装置900还可以包括存储部件940。存储部件940可被配置为在网页被打开的情况下,将该网页的链接和与该网页的链接对应的字符串编码关联地存储为浏览历史记录。
根据本发明的一个实施例,存储部件940具体可被配置为将该网页的链接、与该网页的链接对应的字符串编码以及对于该网页的浏览信息关联地存储为浏览历史记录。在该情况下,提示部件930可被配置为通过输出与该已浏览链接相关联的浏览信息来提示所述包含在所述网页中的链接所指向的网页内容已被浏览过。
比较单元922、确定单元924、提示部件930和存储部件940的上述和其他操作和/或功能可以参考上述结合图4至图11描述的内容,为了避免重复,在此不再赘述。
本发明实施例提供的用于处理网页数据的装置可以向用户提示重复网页内容,从而可以避免用户在点击链接时看到已浏览过的内容而引起的时间浪费和体验降低,并同时可以避免用户终端打开具有重复内容的网页而造成的资源浪费。由于在该装置和网络侧设备之间传递组标识而不是属于同一分组的链接,因此可以节省网络带宽。并且,由于可以用通过哈希函数计算得到的字符串编码来表示组信息,因此可以用尽可能少的数据量表示尽可能多的信息,从而可以提高信息传输的效率。此外,在该装置处,由于只需要将已浏览链接对应的字符串编码与组标识进行比较,以确定是否有相同或相近内容已被浏览,因此可以使该装置快速进行重复内容的检测,并简化该装置处的判断过程,从而进一步节省系统开销。另外,由于能够借助于浏览信息来可视化地对重复内容进行提示,可以在避免浏览重复内容的基础上进一步提高用户体验。
如图14所示,用于处理网页数据的装置1000可以是网络侧设备,也可以是安装在网络侧设备中的功能模块。装置1000可以包括接收部件1010和发送部件1020。接收部件1010可被配置为接收来自用户终端的包含在网页中的链接。发送部件1020可被配置为响应于确定所述链接属于至少一个预定分组中的一个预定分组,将该预定分组的组标识发送给所述用户终端,以使所述用户终端响应于确定有已浏览链接属于所述组标识指示的分组,提示所述包含在网页中的链接所指向的网页内容已被浏览过。
接收部件1010和发送部件1020的上述和其他操作和/或功能可以参考上述结合图4至图11进行的描述,为了避免重复,在此不再赘述。
根据本发明实施例提供的用于处理网页数据的装置通过向用户终端返回网页中可能被点击的链接所属分组的组标识,可以帮助用户终端确定该链接指向的内容是否已经被浏览过,从而避免用户重复浏览相同或相近内容,并避免用户终端反复显示重复内容。从而,提高用户体验,并节省系统资源。
图15所示的用于处理网页数据的装置1100中的接收部件1110和发送部件1120与图14所示的装置1000中的接收部件1010和发送部件1020基本相同。
根据本发明的一个实施例,装置1100还可以包括抓取部件1130、划分部件1140和生成部件1150。抓取部件1130看被配置为对已知链接指向的网页内容进行抓取。划分部件1140可被配置为通过计算所述网页内容的相似性,对所述已知链接进行划分,以使得被划分在同一分组中的链接指向的网页内容相同或相近,其中,划分得到所述至少一个预定分组。生成部件1150可被配置为对于每一个分组,根据该分组中的所有链接生成该分组的组标识,并将该分组的组标识与该分组中的所有链接关联地存储。
根据本发明的一个实施例,生成部件1150具体可被配置为通过对该分组中的所有链接利用至少一个哈希函数来生成该分组的组标识。该分组的组标识可以通过如下方式得到:将划分在该分组中的所有链接中的每一个输入到所述至少一个哈希函数,以使得所述至少一个哈希函数中的每一个输出的结果将预先针对该分组设置的全为第一值的初始字符串编码中的相应位置置为第二值。其中,第一值和第二值可以是从0和1中选择的值,并且第二值与第一值不同。
根据本发明的一个实施例,装置1100还可以包括获取部件1160、分类部件1170和更新部件1180。获取部件1160可被配置为响应于确定所述链接未属于任何预定分组,获取所述链接指向的网页内容。分类部件1170可被配置为根据所述链接指向的网页内容和所述至少一个预定分组中的链接指向的网页内容的相似性,对所述链接进行分类。更新部件1180可被配置为响应于所述链接被划分到一个预定分组中,更新该预定分组的组标识。
抓取部件1130、划分部件1140、生成部件1150、获取部件1160、分类部件1170和更新部件1180的上述和其他操作和/或功能可以参考上述结合图4至图11进行的描述,为了避免重复,在此不再赘述。
本发明实施例提供的用于处理网页数据的装置通过对组标识进行不断地更新,可以跟踪在网络中出现的新的内容,从而有利于更全面地判断不同的链接是否指向相同或相近的网页内容,由此更有效地向用户提示重复网页内容的出现,进一步避免用户终端打开具有重复内容的网页而浪费系统资源。
图16示出了根据本发明实施例的用于处理网页数据的系统1200。系统1200可以包括用户终端1210和网络侧设备1220。用户终端1210可以用于响应于一网页被打开,向网络侧设备1220发送包含在所述网页中的链接;从网络侧设备1220接收组标识,所述组标识是由网络侧设备1220根据所述链接确定的、用于指示所述链接所属的分组;确定是否有已浏览链接属于所述组标识指示的分组;响应于确定有已浏览链接属于所述组标识指示的分组,提示所述包含在所述网页中的链接所指向的网页内容已被浏览过。网络侧设备1220可以用于接收来自用户终端1210的包含在所述网页中的所述链接;响应于确定所述链接属于至少一个预定分组中的一个预定分组,将该预定分组的组标识发送给所述用户终端。用户终端1210和网络侧设备1220的上述和其他操作和/或功能可以参考上述结合图4至图11进行的描述,为了避免重复,在此不再赘述。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (23)
1.一种用于处理网页数据的方法,包含:
响应于一网页被打开,向网络侧设备发送包含在所述网页中的链接;
从所述网络侧设备接收组标识,所述组标识是由所述网络侧设备根据所述链接确定的、用于指示所述链接所属的分组;
确定是否有已浏览链接属于所述组标识指示的分组;以及
响应于确定有已浏览链接属于所述组标识指示的分组,提示所述包含在所述网页中的链接所指向的网页内容已被浏览过。
2.根据权利要求1所述的方法,其中,所述确定是否有已浏览链接属于所述组标识指示的分组包含:
将与已浏览链接对应的字符串编码和所述组标识进行比较;
将与所述组标识匹配的字符串编码对应的已浏览链接确定为属于所述组标识指示的分组,
其中,与已浏览链接对应的字符串编码是通过对该已浏览链接利用与根据划分在同一分组中的所有链接得到该分组的组标识的函数相同的函数而得到的。
3.根据权利要求2所述的方法,其中,所述函数为至少一个哈希函数,
与已浏览链接对应的字符串编码通过如下方式得到:将该已浏览链接输入到所述至少一个哈希函数,以使得所述至少一个哈希函数中的每一个输出的结果将预先针对该已浏览链接设置的全为第一值的初始字符串编码中的相应位置置为第二值,以及
分组的组标识通过如下方式得到:将划分在同一分组中的所有链接中的每一个输入到所述至少一个哈希函数,以使得所述至少一个哈希函数中的每一个输出的结果将预先针对该分组设置的全为第一值的初始字符串编码中的相应位置置为第二值,
其中,所述第一值和所述第二值是从0和1中选择的值,并且所述第二值与所述第一值不同。
4.根据权利要求3所述的方法,其中,将链接输入到所述至少一个哈希函数包含将该链接的ASCII编码或IP地址编码输入到所述至少一个哈希函数。
5.根据权利要求3所述的方法,其中,所述将与已浏览链接对应的字符串编码和所述组标识进行比较包含:
确定在所述与已浏览链接对应的字符串编码中被置为第二值的位置;以及
确定所述组标识在所确定的位置处的值,并将所述值与第二值进行比较,
所述将与所述组标识匹配的字符串编码对应的已浏览链接确定为属于所述组标识指示的分组包含:
响应于确定所述组标识在所确定的位置处的值也被置为第二值,确定该已浏览链接属于所述组标识指示的分组。
6.根据权利要求2所述的方法,还包含:
在所述网页被打开的情况下,将该网页的链接和与该网页的链接对应的字符串编码关联地存储为浏览历史记录。
7.根据权利要求6所述的方法,其中,所述将该网页的链接和与该网页的链接对应的字符串编码关联地存储为浏览历史记录包含:
将该网页的链接、与该网页的链接对应的字符串编码以及对于该网页的浏览信息关联地存储为浏览历史记录,
其中,所述提示所述包含在所述网页中的链接所指向的网页内容已被浏览过包含:
通过输出与该已浏览链接相关联的浏览信息来提示所述包含在所述网页中的链接所指向的网页内容已被浏览过。
8.一种用于处理网页数据的方法,包含:
接收来自用户终端的包含在网页中的链接;以及
响应于确定所述链接属于至少一个预定分组中的一个预定分组,将该预定分组的组标识发送给所述用户终端,以使所述用户终端响应于确定有已浏览链接属于所述组标识指示的分组,提示所述包含在网页中的链接所指向的网页内容已被浏览过。
9.根据权利要求8所述的方法,其中,在所述响应于确定所述链接属于至少一个预定分组中的一个预定分组、将该预定分组的组标识发送给所述用户终端之前,包含:
对已知链接指向的网页内容进行抓取;
通过计算所述网页内容的相似性,对所述已知链接进行划分,以使得被划分在同一分组中的链接指向的网页内容相同或相近,其中,划分得到所述至少一个预定分组;以及
对于每一个分组,根据该分组中的所有链接生成该分组的组标识,并将该分组的组标识与该分组中的所有链接关联地存储。
10.根据权利要求9所述的方法,其中,所述根据该分组中的所有链接生成该分组的组标识包含:
通过对该分组中的所有链接利用至少一个哈希函数来生成该分组的组标识,
其中,该分组的组标识通过如下方式得到:将划分在该分组中的所有链接中的每一个输入到所述至少一个哈希函数,以使得所述至少一个哈希函数中的每一个输出的结果将预先针对该分组设置的全为第一值的初始字符串编码中的相应位置置为第二值,
其中,所述第一值和所述第二值是从0和1中选择的值,并且所述第二值与所述第一值不同。
11.根据权利要求8所述的方法,还包含:
响应于确定所述链接未属于任何预定分组,获取所述链接指向的网页内容;
根据所述链接指向的网页内容和所述至少一个预定分组中的链接指向的网页内容的相似性,对所述链接进行分类;
响应于所述链接被划分到一个预定分组中,更新该预定分组的组标识。
12.一种用于处理网页数据的装置,包含:
发送部件,被配置为响应于一网页被打开,向网络侧设备发送包含在所述网页中的链接;
接收部件,被配置为从所述网络侧设备接收组标识,所述组标识是由所述网络侧设备根据所述链接确定的、用于指示所述链接所属的分组;
确定部件,被配置为确定是否有已浏览链接属于所述组标识指示的分组;以及
提示部件,被配置为响应于确定有已浏览链接属于所述组标识指示的分组,提示所述包含在所述网页中的链接所指向的网页内容已被浏览过。
13.根据权利要求12所述的装置,其中,所述确定部件包含:
比较单元,被配置将与已浏览链接对应的字符串编码和所述组标识进行比较;
确定单元,被配置为将与所述组标识匹配的字符串编码对应的已浏览链接确定为属于所述组标识指示的分组,其中,与已浏览链接对应的字符串编码是通过对该已浏览链接利用与根据划分在同一分组中的所有链接得到该分组的组标识的函数相同的函数而得到的。
14.根据权利要求13所述的装置,其中,所述函数为至少一个哈希函数,
与已浏览链接对应的字符串编码通过如下方式得到:将该已浏览链接输入到所述至少一个哈希函数,以使得所述至少一个哈希函数中的每一个输出的结果将预先针对该已浏览链接设置的全为第一值的初始字符串编码中的相应位置置为第二值,以及
分组的组标识通过如下方式得到:将划分在同一分组中的所有链接中的每一个输入到所述至少一个哈希函数,以使得所述至少一个哈希函数中的每一个输出的结果将预先针对该分组设置的全为第一值的初始字符串编码中的相应位置置为第二值,
其中,所述第一值和所述第二值是从0和1中选择的值,并且所述第二值与所述第一值不同。
15.根据权利要求14所述的装置,其中,将链接输入到所述至少一个哈希函数包含将该链接的ASCII编码或IP地址编码输入到所述至少一个哈希函数。
16.根据权利要求14所述的装置,其中,所述比较单元被配置为确定在所述与已浏览链接对应的字符串编码中被置为第二值的位置,以及确定所述组标识在所确定的位置处的值,并将所述值与第二值进行比较;
所述确定单元被配置为响应于确定所述组标识在所确定的位置处的值也被置为第二值,确定该已浏览链接属于所述组标识指示的分组。
17.根据权利要求13所述的装置,还包含:
存储部件,被配置为在所述网页被打开的情况下,将该网页的链接和与该网页的链接对应的字符串编码关联地存储为浏览历史记录。
18.根据权利要求17所述的装置,其中,所述存储部件被配置为将该网页的链接、与该网页的链接对应的字符串编码以及对于该网页的浏览信息关联地存储为浏览历史记录,
其中,所述提示部件被配置为通过输出与该已浏览链接相关联的浏览信息来提示所述包含在所述网页中的链接所指向的网页内容已被浏览过。
19.一种用于处理网页数据的装置,包含:
接收部件,被配置为接收来自用户终端的包含在网页中的链接;以及
发送部件,被配置为响应于确定所述链接属于至少一个预定分组中的一个预定分组,将该预定分组的组标识发送给所述用户终端,以使所述用户终端响应于确定有已浏览链接属于所述组标识指示的分组,提示所述包含在网页中的链接所指向的网页内容已被浏览过。
20.根据权利要求19所述的装置,还包含:
抓取部件,被配置为对已知链接指向的网页内容进行抓取;
划分部件,被配置为通过计算所述网页内容的相似性,对所述已知链接进行划分,以使得被划分在同一分组中的链接指向的网页内容相同或相近,其中,划分得到所述至少一个预定分组;以及
生成部件,被配置为对于每一个分组,根据该分组中的所有链接生成该分组的组标识,并将该分组的组标识与该分组中的所有链接关联地存储。
21.根据权利要求20所述的装置,其中,所述生成部件被配置为通过对该分组中的所有链接利用至少一个哈希函数来生成该分组的组标识,
其中,该分组的组标识通过如下方式得到:将划分在该分组中的所有链接中的每一个输入到所述至少一个哈希函数,以使得所述至少一个哈希函数中的每一个输出的结果将预先针对该分组设置的全为第一值的初始字符串编码中的相应位置置第二值,
其中,所述第一值和所述第二值是从0和1中选择的值,并且所述第二值与所述第一值不同。
22.根据权利要求19所述的装置,还包含:
获取部件,被配置为响应于确定所述链接未属于任何预定分组,获取所述链接指向的网页内容;
分类部件,被配置为根据所述链接指向的网页内容和所述至少一个预定分组中的链接指向的网页内容的相似性,对所述链接进行分类;
更新部件,被配置为响应于所述链接被划分到一个预定分组中,更新该预定分组的组标识。
23.一种用于处理网页数据的系统,包含用户终端和网络侧设备,其中:
所述用户终端被配置为响应于一网页被打开,向所述网络侧设备发送包含在所述网页中的链接;从所述网络侧设备接收组标识,所述组标识是由所述网络侧设备根据所述链接确定的、用于指示所述链接所属的分组;确定是否有已浏览链接属于所述组标识指示的分组;响应于确定有已浏览链接属于所述组标识指示的分组,提示所述包含在所述网页中的链接所指向的网页内容已被浏览过;以及
所述网络侧设备被配置为接收来自所述用户终端的包含在所述网页中的所述链接;响应于确定所述链接属于至少一个预定分组中的一个预定分组,将该预定分组的组标识发送给所述用户终端。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310064517.2A CN104021124B (zh) | 2013-02-28 | 2013-02-28 | 用于处理网页数据的方法、装置和系统 |
US14/187,475 US10671686B2 (en) | 2013-02-28 | 2014-02-24 | Processing webpage data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310064517.2A CN104021124B (zh) | 2013-02-28 | 2013-02-28 | 用于处理网页数据的方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104021124A true CN104021124A (zh) | 2014-09-03 |
CN104021124B CN104021124B (zh) | 2017-11-03 |
Family
ID=51389278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310064517.2A Active CN104021124B (zh) | 2013-02-28 | 2013-02-28 | 用于处理网页数据的方法、装置和系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10671686B2 (zh) |
CN (1) | CN104021124B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912730A (zh) * | 2016-05-19 | 2016-08-31 | 珠海市魅族科技有限公司 | 一种数据查看方法及其设备 |
CN110533503A (zh) * | 2019-08-12 | 2019-12-03 | 厦门网宿有限公司 | 一种数据处理方法及装置 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2527355A (en) * | 2014-06-20 | 2015-12-23 | Ibm | Identifying items on a second website already browsed at a first website |
CN104951556A (zh) * | 2015-06-30 | 2015-09-30 | 北京奇虎科技有限公司 | 在搜索结果页中生成提示信息的方法及装置 |
US10673967B2 (en) * | 2018-05-14 | 2020-06-02 | International Business Machines Corporation | Personalized website modification based on online user activity |
US11157544B2 (en) * | 2018-09-19 | 2021-10-26 | International Business Machines Corporation | Online site prediction and mitigation |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050257400A1 (en) * | 1998-11-06 | 2005-11-24 | Microsoft Corporation | Navigating a resource browser session |
US20060005014A1 (en) * | 2003-03-27 | 2006-01-05 | Microsoft Corporation | Using time to determine a hash extension |
CN101341464A (zh) * | 2005-10-23 | 2009-01-07 | 谷歌公司 | 对结构化数据的搜索 |
US20090213750A1 (en) * | 2005-08-24 | 2009-08-27 | Qualcomm, Incorporated | Varied transmission time intervals for wireless communication system |
CN102622365A (zh) * | 2011-01-28 | 2012-08-01 | 北京百度网讯科技有限公司 | 一种网页重复的判断系统及其判断方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6370551B1 (en) | 1998-04-14 | 2002-04-09 | Fuji Xerox Co., Ltd. | Method and apparatus for displaying references to a user's document browsing history within the context of a new document |
US6658423B1 (en) | 2001-01-24 | 2003-12-02 | Google, Inc. | Detecting duplicate and near-duplicate files |
US7185088B1 (en) | 2003-03-31 | 2007-02-27 | Microsoft Corporation | Systems and methods for removing duplicate search engine results |
US8364540B2 (en) * | 2005-09-14 | 2013-01-29 | Jumptap, Inc. | Contextual targeting of content using a monetization platform |
US20090216639A1 (en) * | 2008-02-25 | 2009-08-27 | Mark Joseph Kapczynski | Advertising selection and display based on electronic profile information |
US8180778B1 (en) * | 2010-02-05 | 2012-05-15 | Google Inc. | Generating action trails from web history |
US20120016897A1 (en) | 2010-07-16 | 2012-01-19 | Altruik, Inc. | System and method for improving webpage indexing and optimization |
US8825641B2 (en) | 2010-11-09 | 2014-09-02 | Microsoft Corporation | Measuring duplication in search results |
US9116995B2 (en) * | 2011-03-30 | 2015-08-25 | Vcvc Iii Llc | Cluster-based identification of news stories |
US8880991B2 (en) * | 2011-04-21 | 2014-11-04 | Qualcomm Innovation Center, Inc. | Methods and apparatus for improved browsing performance by precompilation of high-priority JavaScripts in a webpage and delaying the removal of corresponding compiled code |
US10353938B1 (en) * | 2012-03-02 | 2019-07-16 | Google Llc | Aggregating activity data for multiple users |
US9411899B2 (en) * | 2012-12-21 | 2016-08-09 | Paypal, Inc. | Contextual breadcrumbs during navigation |
-
2013
- 2013-02-28 CN CN201310064517.2A patent/CN104021124B/zh active Active
-
2014
- 2014-02-24 US US14/187,475 patent/US10671686B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050257400A1 (en) * | 1998-11-06 | 2005-11-24 | Microsoft Corporation | Navigating a resource browser session |
US20060005014A1 (en) * | 2003-03-27 | 2006-01-05 | Microsoft Corporation | Using time to determine a hash extension |
US20090213750A1 (en) * | 2005-08-24 | 2009-08-27 | Qualcomm, Incorporated | Varied transmission time intervals for wireless communication system |
CN101341464A (zh) * | 2005-10-23 | 2009-01-07 | 谷歌公司 | 对结构化数据的搜索 |
CN102622365A (zh) * | 2011-01-28 | 2012-08-01 | 北京百度网讯科技有限公司 | 一种网页重复的判断系统及其判断方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912730A (zh) * | 2016-05-19 | 2016-08-31 | 珠海市魅族科技有限公司 | 一种数据查看方法及其设备 |
CN110533503A (zh) * | 2019-08-12 | 2019-12-03 | 厦门网宿有限公司 | 一种数据处理方法及装置 |
CN110533503B (zh) * | 2019-08-12 | 2022-02-18 | 厦门网宿有限公司 | 一种数据处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US20140244646A1 (en) | 2014-08-28 |
CN104021124B (zh) | 2017-11-03 |
US10671686B2 (en) | 2020-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11244011B2 (en) | Ingestion planning for complex tables | |
US10942708B2 (en) | Generating web API specification from online documentation | |
CN110362372A (zh) | 页面转译方法、装置、介质及电子设备 | |
CN103593434A (zh) | 应用推荐方法及装置、服务器设备 | |
CN104021124A (zh) | 用于处理网页数据的方法、装置和系统 | |
CN104965691A (zh) | 配置网页页面的页面元素的方法、装置及系统 | |
CN104254846A (zh) | 用于电子设备的基于内容的导航 | |
CN110263287A (zh) | 页面渲染方法及设备 | |
CN103902535A (zh) | 获取联想词的方法、装置及系统 | |
US10691764B2 (en) | Search engine optimization techniques | |
CN106776693A (zh) | 一种网站数据采集方法及装置 | |
CN115051863B (zh) | 异常流量检测的方法、装置、电子设备及可读存储介质 | |
CN103177096B (zh) | 基于文本属性的页面元素定位方法及设备 | |
CN110808868B (zh) | 测试数据获取方法、装置、计算机设备及存储介质 | |
US11526801B2 (en) | Conversational search in content management systems | |
CN103559194A (zh) | 一种搜索方法、服务器、系统 | |
CN103793420A (zh) | 用于跨站点数据分析的方法和系统 | |
US11157532B2 (en) | Hierarchical target centric pattern generation | |
KR101184809B1 (ko) | 웹 페이지를 제공하는 방법 및 서버 | |
CN103559195A (zh) | 一种搜索方法和终端 | |
CN116956326A (zh) | 权限数据的处理方法、装置、计算机设备及存储介质 | |
US11675856B2 (en) | Product features map | |
US12039266B2 (en) | Methods and system for the extraction of properties of variables using automatically detected variable semantics and other resources | |
US20220358152A1 (en) | Model performance through text-to-text transformation via distant supervision from target and auxiliary tasks | |
CN114896543A (zh) | 舆情分析方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |