[go: up one dir, main page]

CN102810107B - 重复数据的处理方法 - Google Patents

重复数据的处理方法 Download PDF

Info

Publication number
CN102810107B
CN102810107B CN201110157707.XA CN201110157707A CN102810107B CN 102810107 B CN102810107 B CN 102810107B CN 201110157707 A CN201110157707 A CN 201110157707A CN 102810107 B CN102810107 B CN 102810107B
Authority
CN
China
Prior art keywords
fingerprint value
request
value
requested
hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110157707.XA
Other languages
English (en)
Other versions
CN102810107A (zh
Inventor
朱明胜
陈志丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hefu Artificial Intelligence Technology (group) Co Ltd
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CN201110157707.XA priority Critical patent/CN102810107B/zh
Priority to US13/240,154 priority patent/US8983968B2/en
Publication of CN102810107A publication Critical patent/CN102810107A/zh
Application granted granted Critical
Publication of CN102810107B publication Critical patent/CN102810107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1453Management of the data involved in backup or backup restore using de-duplication of the data
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • G06F16/152File search processing using file content signatures, e.g. hash values
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/83Indexing scheme relating to error detection, to error correction, and to monitoring the solution involving signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种重复数据的处理方法,从客户端接收查询请求,其中查询请求包括请求指纹值。接着于内存中对应请求指纹值的哈希区块搜寻请求指纹值。当对应请求指纹值的哈希区块不存在请求指纹值时,执行以下步骤:于内存中的新增表搜寻请求指纹值;以及当新增表中存在请求指纹值时,发送无效重复信息给客户端。

Description

重复数据的处理方法
技术领域
本发明涉及一种重复数据的处理方法,特别涉及一种判断是否有重复数据的处理方法。
背景技术
重复数据删除是一种数据缩减技术,通常用于基于磁盘的备份系统,主要目的在于减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复的数据块用指示符取代。由于存储系统中总是充斥着大量的冗余数据。采用重复删除的技术可以将存储的数据缩减为原来的1/20,从而让出更多的备份空间。
由于欲存储的数据都会被储存在服务器中,因此客户端需要将确认未重复的数据传送至服务器。服务器确认是未重复的新数据时,会先登记新数据的指纹值,在接收以及储存新的数据。由于不同的客户端可以对应到相同的数据,因此可节省更多的备份空间。但是多客户端的系统可能会发生当一个客户端还在新增与传输一个新的备份数据,同时有别的客户端要对相同备份数据查询其是否重复的情况。如此一来,有可能别的客户端以为已经有重复数据,却还找不到对应的重复数据的问题。尤其是当新增中的新数据发生错误而新增失败,但别的客户端却也将拥有的数据丢弃时,会造成完全新增失败且无法补救的状况。
发明内容
本发明的目的在于提供一种重复数据的处理方法。
根据一实施范例,重复数据的处理方法从一客户端接收一查询请求,其中查询请求包括一请求指纹值。接着于一内存中对应请求指纹值的一哈希区块搜寻请求指纹值。当对应请求指纹值的哈希区块不存在请求指纹值时,执行以下步骤:于内存中的一新增表搜寻请求指纹值;以及当新增表中存在请求指纹值时,发送一无效重复信息给客户端。
于另一实施范例,重复数据的处理方法从客户端接收查询请求;再利用一布隆过滤器(Bloom filter)处理请求指纹值,并得到一回传值。当回传值为命中(hit)时,于内存中对应请求指纹值的哈希区块搜寻请求指纹值。当对应请求指纹值的哈希区块不存在请求指纹值时,执行以下步骤:于内存中的新增表搜寻请求指纹值;以及当新增表中存在请求指纹值时,发送无效重复信息给客户端。
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
附图说明
图1为根据本发明一实施范例的服务器的示意图;
图2为根据本发明一实施范例的重复数据的处理方法的流程图;
图3为根据本发明一实施范例的步骤S200的流程图;
图4A为根据本发明一实施范例的新增程序的流程图;
图4B为根据本发明另一实施范例的新增程序的流程图;
图5为根据本发明另一实施范例的重复数据的处理方法的流程图。
其中,附图标记
10客户端
20服务器
30内存
40磁盘
52新增表
54储存完成表
56哈希冲突表
60A,60B,60C哈希区块
70数据块
具体实施方式
以下在实施方式中详细叙述本发明的详细特征以及优点,其内容足以使任何本领域技术人员了解本发明的技术内容并据以实施,且根据本说明书所揭露的内容、权利要求范围及附图,任何本领域技术人员可轻易地理解本发明相关的目的及优点。
本发明关于一种重复数据的处理方法,其适用于一服务器。实施重复数据的处理方法的服务器可判断至少一客户端欲备份的数据是否重复,以提供重复数据删除的功能。
请参照1图,其为一实施范例的服务器的示意图。
服务器20可通过因特网(Internet)或内网(internet)等各种网络(network)与多个客户端10连接,并备份由客户端10传送来的数据。服务器20可具有一内存30、一磁盘40以及处理器等硬件。磁盘40储存多个已从客户端10完整接收的数据块70,以及多个哈希区块60A、60B以及60C(hash tank,以下统称为哈希区块60)。其中数据块70可以例如是纯文本文件、各种多媒体文件或是客户端10进行系统备份时产生的快照(snapshot),也可以是这些文件的一部分。例如服务器20可将一个文件切成多个大小统一为2兆字节(MB)数据块70储存。
服务器20可通过MD5、SHA-1、SHA-256、SHA-512或单向哈希(One-wayhash)等算法计算每一个数据块70的一储存指纹值,并且将多个储存指纹值作为哈希区块60存入磁盘40之中。而在判断是否有重复数据时,可将与欲处理的数据块70对应的哈希区块60从磁盘40加载内存30再进行处理。
服务器20的内存30之中并可维护一新增表52、一储存完成表54以及一哈希冲突表56。其中新增表52中可纪录正在新增的数据块70的储存指纹值。储存完成表54中可纪录已新增完成,但尚未将新增完成的信息写入数据块70的储存指纹值。哈希冲突表56可纪录各哈希区块60中产生哈希冲突的储存指纹值。
请参照图2,其为根据本发明一实施范例的重复数据的处理方法的流程图。
首先服务器20从任一个客户端10接收一查询请求,其中查询请求包括一请求指纹值(步骤S100)。为了尽量减少客户端10与服务器端20之间的数据传输,客户端10欲备份一请求数据块时可以只传送代表请求数据块的请求指纹值给服务器20。但依据请求数据块计算请求指纹值的算法须与依据数据块70计算储存指纹值的算法相同。
接着服务器20于内存30对应请求指纹值的哈希区块60搜寻请求指纹值(步骤S200),以确认服务器20是否已存有与请求数据块相同的数据块70。请配合参照图3,其为根据本发明一实施范例的步骤S200的流程图。
储存指纹值可以以哈希表的方式储存,但是由于储存指纹值的数量很大,无法全部暂存于内存30之中。因此服务器20可将哈希表分割成多个哈希区块60,以快速存取储存指纹值,但只有部分的哈希区块60会被加载内存30之中。
为了判断可能存有请求指纹值的哈希区块60是否正在内存30中,可先对请求指纹值执行一哈希程序,并得到一区块索引值(步骤S210)。接着再依据区块索引值,于内存30中搜寻对应请求指纹值的哈希区块60(步骤S220),以及判断内存30中是否存在对应请求指纹值的哈希区块60(步骤S230)。
举例而言,假设将请求指纹值执行哈希程序后获的区块索引值是哈希区块60A,便可在内存30中找到。当内存30中存在对应请求指纹值的哈希区块60A时,于对应请求指纹值的哈希区块60A搜寻请求指纹值(步骤S240)。
相反地,假设将请求指纹值执行哈希程序后获的区块索引值是哈希区块60C,便无法在内存30中找到。当内存30中不存在对应请求指纹值的哈希区块60C时,可执行以下步骤S250至步骤S290,以在所需的哈希区块60C中搜寻请求指纹值。
服务器20先从磁盘40中将对应请求指纹值的哈希区块60C加载内存30(步骤S250),再于内存30中的储存完成表54搜寻请求指纹值(步骤S260)。
储存完成表54中可纪录完整储存于磁盘40之中,但尚未将新增完成的信息更新一写入状态值的数据块70的储存指纹值。为了减少将磁盘40中的数据加载内存30的动作(又称为磁盘输入输出,磁盘input/output,磁盘IO),当有数据块70新增完成后,可先将新增完成的数据块70的储存指纹值暂存于储存完成表54之中。
例如若有新的数据块已新增完成,但完成时此数据块70对应的哈希区块60正好不在内存30之中,服务器20可不将对应的哈希区块60加载内存30来更改其写入状态值。相对地,服务器20将新增完成的数据块70的储存指纹值存入储存完成表54。由于磁盘IO所需花费的时间远较直接读写内存30还长,因此以储存完成表54暂时代替磁盘IO的做法可节省重复数据的处理时间。
服务器20判断储存完成表54中是否存在请求指纹值(步骤S270)。当储存完成表54中存在请求指纹值时,更新哈希区块60的写入状态值,并由储存完成表54中删除请求指纹值,再于对应请求指纹值的哈希区块60搜寻请求指纹值(步骤S280)。换句话说,服务器20在尚未更新其写入状态值的哈希区块60需被加载内存30时(也就是步骤S200),才将写入状态值更新。如此一来,可避免仅为了更改写入状态值而将对应的哈希区块60额外加载内存30的磁盘IO。
而当储存完成表54中不存在请求指纹值时,可直接于对应请求指纹值的哈希区块60搜寻请求指纹值(步骤S290)。
读取并搜寻所需的哈希区块60后,服务器20判断对应请求指纹值的哈希区块60是否存在请求指纹值(步骤S300)。当哈希区块60中存在请求指纹值时,发送一有效重复信息给客户端10(步骤S400)。由于在内存30或磁盘40中已找到与请求指纹值相同的储存指纹值,可知在磁盘40中已完整存有客户端10欲备份的请求数据块。因此服务器20发送有效重复信息告知客户端10。
反之,当对应请求指纹值的哈希区块60不存在请求指纹值时,服务器20执行以下步骤S500至步骤S800,以判断请求数据块是否为新的数据块。
服务器20于内存30中的新增表52搜寻请求指纹值(步骤S500),接着判断新增表52中是否存在请求指纹值(步骤S600)。新增表52中纪录正在新增的数据块70的储存指纹值,服务器20可通过新增表52确认哪些数据块70还在传输中,而尚未完整储存于磁盘40之中。
当新增表52中存在请求指纹值时,表示对应的数据块70上在新增中,而发送一无效重复信息给客户端10(步骤S700)。客户端10收到无效重复信息后,可进行轮询(polling)或等待(waiting);并在经过一预定时间后再度发出查询请求。且客户端10收到无效重复信息后可先暂时保留自己的请求数据块,以避免新增失败。
当新增表52中不存在请求指纹值时,执行一新增程序(步骤S800)。
请参照图4A,其为根据本发明一实施范例的新增程序的流程图。
服务器20可先将请求指纹值加入新增表52(步骤S810),再发送一新数据信息给客户端10(步骤S820),已要求客户端10传送请求数据块。
请参照图4B,其为根据本发明一实施范例的新增程序的流程图。于本实施范例之中,新增程序在步骤S820之后另可包括步骤S830至S870。
客户端10依据新数据信息发送请求数据块,服务器20从客户端10接收并储存请求指纹值代表的请求数据块(步骤S830)。且如前述,服务器20于内存30中搜寻对应请求指纹值的哈希区块60(步骤S840),并判断内存30中是否正好存在对应请求指纹值的哈希区块60(步骤S850)。
当内存30中存在对应请求指纹值的哈希区块60时,可直接更新哈希区块60的写入状态值,并由新增表52中删除请求指纹值(步骤S860)。而当内存30中不存在对应请求指纹值的哈希区块60时,可将请求指纹值写入内存30的储存完成表54,并由新增表52中删除请求指纹值(步骤S870)。
请参照图5,其为根据本发明另一实施范例的新增程序的流程图。
为了减少磁盘IO的次数,接收查询请求后可先利用一布隆过滤器(Bloomfilter)处理请求指纹值,并得到一回传值(步骤S120)。布隆过滤器能够先行预测请求数据块是否为新的数据块;若是,则回传值为命中(hit),表示请求指纹值应已存在内存30或磁盘40之中。服务器20判断回传值是否为命中(hit)(步骤S130)。当回传值为命中时,执行上述步骤S200,以判断是否为重复数据;当回传值为未命中时,则执行上述步骤S800,以新增请求数据块。
此外,服务器20可在读取哈希区块60中对应请求指纹值的储存指纹值时,比较请求指纹值与储存指纹值是否相同。若不同,可能是在纪录储存指纹值时发生哈希冲突。此时可查询哈希冲突表56,以确认真正对应请求指纹值的储存指纹值是否存在,以正确判断数据的重复性。
综上所述,重复数据的处理方法维护新增表以确认是否有新增中的无效重复数据;并维护储存完成表以减少磁盘IO的次数。因此重复数据的处理方法不但可以正确地辨别重复数据的有效性,更能快速且有效率地执行。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (8)

1.一种重复数据的处理方法,其特征在于,包括:
从一客户端接收一查询请求以欲备份一请求数据块,其中该查询请求包括代表该请求数据块的一请求指纹值;
于一内存中对应该请求指纹值的一哈希区块搜寻该请求指纹值;以及
当对应该请求指纹值的该哈希区块不存在该请求指纹值时,执行以下步骤:
于该内存中的一新增表搜寻该请求指纹值,其中该新增表中纪录正在新增的数据块的储存指纹值,并通过该新增表确认哪些数据块还在传输中,而尚未完整储存于磁盘之中,其中依据该请求数据块计算该请求指纹值的算法与依据该数据块计算该储存指纹值的算法相同;以及
当该新增表中存在该请求指纹值时,发送一无效重复信息给该客户端,
其中,所述于该内存中对应该请求指纹值的该哈希区块搜寻该请求指纹值的步骤还包括:当有新的数据块新增完成,但该内存中不存在对应该请求指纹值的该数据块的该哈希区块时:不将对应的该哈希区块加载到该内存来更新其写入状态值,而是将新增完成的数据块的储存指纹值存入一储存完成表;于该内存中的储存完成表搜寻该请求指纹值;以及当该储存完成表中存在该请求指纹值时,更新该哈希区块的一写入状态值,并由该储存完成表中删除该请求指纹值,再于对应该请求指纹值的该哈希区块搜寻该请求指纹值,即在尚未更新其写入状态值的哈希区块需要被加载入内存时,才将写入状态值更新;当该储存完成表中不存在该请求指纹值时,直接于对应请求指纹值的哈希区块搜寻该请求指纹值;
其中,该储存完成表中纪录完整储存于磁盘之中,但尚未将新增完成的信息更新一写入状态值的数据块的储存指纹值,以及当有数据块在磁盘中新增完成之后,先将该数据块的储存指纹值暂存于该储存完成表中。
2.根据权利要求1所述的重复数据的处理方法,其特征在于,还包括:
当该哈希区块存在该请求指纹值时,发送一有效重复信息给该客户端。
3.根据权利要求1所述的重复数据的处理方法,其特征在于,所述于该内存中对应该请求指纹值的该哈希区块搜寻该请求指纹值的步骤包括:
对该请求指纹值执行一哈希程序,并得到一区块索引值;
依据该区块索引值,于该内存中搜寻对应该请求指纹值的该哈希区块;以及
当该内存中存在对应该请求指纹值的该哈希区块时,于对应该请求指纹值的该哈希区块搜寻该请求指纹值。
4.根据权利要求1所述的重复数据的处理方法,其特征在于,还包括:
当该新增表中不存在该请求指纹值时,执行一新增程序。
5.根据权利要求4所述的重复数据的处理方法,其特征在于,该新增程序包括:
将该请求指纹值加入该新增表;以及
发送一新数据信息给该客户端。
6.根据权利要求5所述的重复数据的处理方法,其特征在于,该新增程序还包括:
从该客户端接收并储存该请求指纹值代表的一数据块;
于该内存中搜寻对应该请求指纹值的该哈希区块;
当该内存中存在对应该请求指纹值的该哈希区块时,更新该哈希区块的一写入状态值,并由该新增表中删除该请求指纹值;以及
当该内存中不存在对应该请求指纹值的该哈希区块时,将该请求指纹值写入该内存的一储存完成表,并由该新增表中删除该请求指纹值。
7.一种重复数据的处理方法,其特征在于,包括:
从一客户端接收一查询请求以欲备份一请求数据块,其中该查询请求包括代表该请求数据块的一请求指纹值;
利用一布隆过滤器处理该请求指纹值,并得到一回传值;以及
当该回传值为命中时,执行以下步骤:
于一内存中对应该请求指纹值的一哈希区块搜寻该请求指纹值;以及
当对应该请求指纹值的该哈希区块不存在该请求指纹值时,执行以下步骤:
于该内存中的一新增表搜寻该请求指纹值,其中该新增表中纪录正在新增的数据块的储存指纹值,并通过该新增表确认哪些数据块还在传输中,而尚未完整储存于磁盘之中,其中依据该请求数据块计算该请求指纹值的算法与依据该数据块计算该储存指纹值的算法相同;以及
当该新增表中存在该请求指纹值时,发送一无效重复信息给该客户端,
其中,所述于该内存中对应该请求指纹值的该哈希区块搜寻该请求指纹值的步骤还包括:当有新的数据块新增完成,但该内存中不存在对应该请求指纹值的该数据块的该哈希区块时:不将对应的该哈希区块加载到该内存来更新其写入状态值,而是将新增完成的数据块的储存指纹值存入一储存完成表;于该内存中的储存完成表搜寻该请求指纹值;以及当该储存完成表中存在该请求指纹值时,更新该哈希区块的一写入状态值,并由该储存完成表中删除该请求指纹值,再于对应该请求指纹值的该哈希区块搜寻该请求指纹值,即在尚未更新其写入状态值的哈希区块需要被加载入内存时,才将写入状态值更新;当该储存完成表中不存在该请求指纹值时,直接于对应请求指纹值的哈希区块搜寻该请求指纹值;
其中,该储存完成表中纪录完整储存于磁盘之中,但尚未将新增完成的信息更新一写入状态值的数据块的储存指纹值,以及当有数据块在磁盘中新增完成之后,先将该数据块的储存指纹值暂存于该储存完成表中。
8.根据权利要求7所述的重复数据的处理方法,其特征在于,还包括:
当该回传值为未命中时,执行一新增程序。
CN201110157707.XA 2011-06-01 2011-06-01 重复数据的处理方法 Active CN102810107B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110157707.XA CN102810107B (zh) 2011-06-01 2011-06-01 重复数据的处理方法
US13/240,154 US8983968B2 (en) 2011-06-01 2011-09-22 Method for processing duplicated data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110157707.XA CN102810107B (zh) 2011-06-01 2011-06-01 重复数据的处理方法

Publications (2)

Publication Number Publication Date
CN102810107A CN102810107A (zh) 2012-12-05
CN102810107B true CN102810107B (zh) 2015-10-07

Family

ID=47233814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110157707.XA Active CN102810107B (zh) 2011-06-01 2011-06-01 重复数据的处理方法

Country Status (2)

Country Link
US (1) US8983968B2 (zh)
CN (1) CN102810107B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9715434B1 (en) 2011-09-30 2017-07-25 EMC IP Holding Company LLC System and method for estimating storage space needed to store data migrated from a source storage to a target storage
US8943032B1 (en) 2011-09-30 2015-01-27 Emc Corporation System and method for data migration using hybrid modes
US8949208B1 (en) * 2011-09-30 2015-02-03 Emc Corporation System and method for bulk data movement between storage tiers
CN103279532B (zh) * 2013-05-31 2016-12-28 北京创世泰克科技股份有限公司 多集合元素去重并标识所属集合的过滤系统及其方法
CN103294822B (zh) * 2013-06-17 2016-08-10 北京航空航天大学 一种基于主动哈希和布隆过滤器的高效缓存方法
CN103455631A (zh) * 2013-09-22 2013-12-18 广州中国科学院软件应用技术研究所 一种数据处理方法、装置及系统
US9384205B1 (en) * 2013-12-18 2016-07-05 Veritas Technologies Llc Auto adaptive deduplication to cloud based storage
CN105630834B (zh) * 2014-11-07 2021-07-20 中兴通讯股份有限公司 一种实现重复数据删除的方法及装置
CN105718455B (zh) * 2014-12-01 2019-06-14 阿里巴巴集团控股有限公司 一种数据查询方法及装置
EP3235163B1 (en) * 2014-12-18 2021-07-14 Nokia Technologies Oy De-duplication of encrypted data
CN104636477B (zh) * 2015-02-15 2017-11-24 山东卓创资讯股份有限公司 一种信息推送前推送列表的去重方法
CN105487819A (zh) * 2015-11-30 2016-04-13 上海爱数信息技术股份有限公司 一种基于任务策略的内存级数据快速存储方法
US10565205B2 (en) * 2016-11-14 2020-02-18 Sap Se Incrementally building hash collision tables
US10565204B2 (en) 2016-11-14 2020-02-18 Sap Se Hash collision tables for relational join operations
CN108572789B (zh) * 2017-03-13 2022-01-28 阿里巴巴集团控股有限公司 磁盘存储方法和装置、消息推送方法和装置及电子设备
CN107679173A (zh) * 2017-09-29 2018-02-09 苏宁云商集团股份有限公司 一种实时数据处理方法及装置
CN109150537B (zh) * 2018-06-25 2021-08-17 广东工业大学 一种基于动态Bloom Filter的文件所有权证明方法
CN111309737A (zh) * 2020-03-11 2020-06-19 支付宝(杭州)信息技术有限公司 名单查询方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101061467A (zh) * 2004-07-23 2007-10-24 Emc公司 远程存储数据副本
CN101814045A (zh) * 2010-04-22 2010-08-25 华中科技大学 一种用于备份服务的数据组织方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7173722B1 (en) * 1999-05-25 2007-02-06 Silverbrook Research Pty Ltd Method and system for printing a photograph
US20080215474A1 (en) * 2000-01-19 2008-09-04 Innovation International Americas, Inc. Systems and methods for management of intangible assets
EP1368739A4 (en) * 2001-02-12 2007-07-04 Emc Corp SYSTEM AND METHOD FOR INDEXING UNIQUE ELECTRONIC MESSAGES AND USES THEREOF
US7950751B2 (en) * 2004-03-18 2011-05-31 Ford Global Technologies Method and apparatus for maintaining a trailer in a straight position relative to the vehicle
US8069151B1 (en) * 2004-12-08 2011-11-29 Chris Crafford System and method for detecting incongruous or incorrect media in a data recovery process
US8880797B2 (en) * 2007-09-05 2014-11-04 Emc Corporation De-duplication in a virtualized server environment
US9141489B2 (en) * 2009-07-09 2015-09-22 Uniloc Luxembourg S.A. Failover procedure for server system
US8396873B2 (en) * 2010-03-10 2013-03-12 Emc Corporation Index searching using a bloom filter
US9110936B2 (en) * 2010-12-28 2015-08-18 Microsoft Technology Licensing, Llc Using index partitioning and reconciliation for data deduplication

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101061467A (zh) * 2004-07-23 2007-10-24 Emc公司 远程存储数据副本
CN101814045A (zh) * 2010-04-22 2010-08-25 华中科技大学 一种用于备份服务的数据组织方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"重复数据删除技术";敖莉;《软件学报》;20100531;第21卷(第5期);916-929 *

Also Published As

Publication number Publication date
US8983968B2 (en) 2015-03-17
CN102810107A (zh) 2012-12-05
US20120310974A1 (en) 2012-12-06

Similar Documents

Publication Publication Date Title
CN102810107B (zh) 重复数据的处理方法
CN102629247B (zh) 一种数据处理方法、装置和系统
US20190146946A1 (en) Method and device for archiving block data of blockchain and method and device for querying the same
US10567542B2 (en) Method for state based snapshot difference with restart capability
US9547706B2 (en) Using colocation hints to facilitate accessing a distributed data storage system
CN108810041A (zh) 一种分布式缓存系统的数据写入及扩容方法、装置
CN110908589B (zh) 数据文件的处理方法、装置、系统和存储介质
CN102456059A (zh) 重复数据删除的处理系统
WO2017049764A1 (zh) 数据读写方法及分布式存储系统
WO2017020576A1 (zh) 一种键值存储系统中文件压实的方法和装置
US20120310936A1 (en) Method for processing duplicated data
US9952933B1 (en) Fingerprint change during data operations
CN103186652A (zh) 分布式的重复数据删除系统及其方法
CN116578746B (zh) 对象去重方法及装置
US10649682B1 (en) Focused sanitization process for deduplicated storage systems
CN113377868A (zh) 一种基于分布式kv数据库的离线存储系统
CN111522502B (zh) 数据去重方法、装置、电子设备及计算机可读存储介质
WO2013091167A1 (zh) 日志存储方法及系统
CN110618790A (zh) 基于重复数据删除的雾存储数据去冗余方法
US9575679B2 (en) Storage system in which connected data is divided
CN103491124A (zh) 一种对彩信数据进行处理的方法及分布式缓存系统
CN112083885B (zh) 一种数据迁移方法、装置、电子设备及存储介质
TWI441035B (zh) 重複數據的處理方法
CN117614973B (zh) 一种基于多云架构的文件存储方法
US20190034282A1 (en) Offline repopulation of cache

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
CB03 Change of inventor or designer information

Inventor after: Zhou Bing

Inventor before: Zhu Mingsheng

Inventor before: Chen Zhifeng

COR Change of bibliographic data
TR01 Transfer of patent right

Effective date of registration: 20170119

Address after: Room 101, building 11, No. 1158, Zhongxin Road, Songjiang District, Shanghai

Patentee after: Shanghai Hefu artificial intelligence technology (Group) Co., Ltd.

Address before: Taipei City, Taiwan, China

Patentee before: Yingyeda Co., Ltd.