[go: up one dir, main page]

CN112685223B - 基于文件类型的文件备份 - Google Patents

基于文件类型的文件备份 Download PDF

Info

Publication number
CN112685223B
CN112685223B CN201910990429.2A CN201910990429A CN112685223B CN 112685223 B CN112685223 B CN 112685223B CN 201910990429 A CN201910990429 A CN 201910990429A CN 112685223 B CN112685223 B CN 112685223B
Authority
CN
China
Prior art keywords
file
files
backup
target
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910990429.2A
Other languages
English (en)
Other versions
CN112685223A (zh
Inventor
林超
孙莉
卿涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC IP Holding Co LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC IP Holding Co LLC filed Critical EMC IP Holding Co LLC
Priority to CN201910990429.2A priority Critical patent/CN112685223B/zh
Priority to US16/804,302 priority patent/US11429494B2/en
Publication of CN112685223A publication Critical patent/CN112685223A/zh
Application granted granted Critical
Publication of CN112685223B publication Critical patent/CN112685223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1435Saving, restoring, recovering or retrying at system level using file system or storage system metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1453Management of the data involved in backup or backup restore using de-duplication of the data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1461Backup scheduling policy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/168Details of user interfaces specifically adapted to file systems, e.g. browsing and visualisation, 2d or 3d GUIs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例提供了一种用于文件备份的方法、电子设备和计算机程序产品。该方法包括:将待备份的文件集合划分成多个文件子集,每个文件子集中的文件具有相同的文件类型。该方法还包括:分别基于多个文件子集来生成多个备份文件,多个备份文件分别对应于多个文件子集中的文件的多个文件类型。该方法进一步包括:基于多个备份文件,来生成与文件集合相对应的总备份文件。本公开的实施例可以改进文件备份和文件恢复的性能。

Description

基于文件类型的文件备份
技术领域
本公开的实施例一般地涉及计算机系统或存储系统,并且更特别地,涉及一种用于文件备份的方法、电子设备和计算机程序产品。
背景技术
传统地,在计算机系统或存储系统的文件备份中,尤其是在文件系统的备份中,通常是在一个备份会话中对所有待备份的文件一起进行备份,最终生成一个备份文件(例如,容器文件)。例如,一种典型的用户备份场景可能是,用户选择存储盘C、存储盘D和存储盘E来进行按需的文件备份,或者在备份策略中选择这些存储盘从而定期地对这些存储盘进行文件备份。在任一种方式下,存储盘C、存储盘D和存储盘E中的所有文件内容将被执行去重操作,并存储为一个备份文件。
然而,对于现代文件系统而言,这种传统的备份方式可能存在一些问题和不足,因而在许多场景中无法满足文件备份的性能要求,造成了不良的用户体验。
发明内容
本公开的实施例涉及一种用于文件备份的方法、电子设备和计算机程序产品。
在本公开的第一方面,提供了一种用于文件备份的方法。该方法包括:将待备份的文件集合划分成多个文件子集,每个文件子集中的文件具有相同的文件类型。该方法还包括:分别基于多个文件子集来生成多个备份文件,多个备份文件分别对应于多个文件子集中的文件的多个文件类型。该方法进一步包括:基于多个备份文件,来生成与文件集合相对应的总备份文件。
在本公开的第二方面,提供了一种电子设备。该电子设备包括至少一个处理器以及存储有计算机程序指令的至少一个存储器。至少一个存储器和计算机程序指令被配置为,与至少一个处理器一起,使得电子设备:将待备份的文件集合划分成多个文件子集,每个文件子集中的文件具有相同的文件类型。至少一个存储器和计算机程序指令还被配置为,与至少一个处理器一起,使得电子设备:分别基于多个文件子集来生成多个备份文件,多个备份文件分别对应于多个文件子集中的文件的多个文件类型。至少一个存储器和计算机程序指令进一步被配置为,与至少一个处理器一起,使得电子设备:基于多个备份文件,来生成与文件集合相对应的总备份文件。
在本公开的第三方面,提供了一种计算机程序产品。该计算机程序产品被有形地存储在非易失性计算机可读介质上并且包括机器可执行指令。机器可执行指令在被执行时使机器执行根据第一方面的方法的步骤。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其他特征通过以下的描述将变得容易理解。
附图说明
通过参考附图阅读下文的详细描述,本公开的实施例的上述以及其他目的、特征和优点将变得容易理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施例。
图1示出了本公开的实施例可以在其中实现的文件备份系统环境的示意图。
图2示出了根据本公开的实施例的示例方法的流程图。
图3示出了根据本公开的实施例的基于文件类型的文件备份系统的示例架构。
图4示出了根据本公开的实施例的包括文件类型信息的示例文件元数据。
图5示出了根据本公开的实施例的包括备份文件标识符的示例文件元数据。
图6示出了根据本公开的实施例的生成引用文件以作为总备份文件的示意图。
图7示出了一种可以被用来实施本公开的实施例的设备的示意性框图。
贯穿所有附图,相同或者相似的参考标号被用来表示相同或者相似的组件。
具体实施方式
下面将参考附图中所示出的若干示例性实施例来描述本公开的原理和精神。应当理解,描述这些具体的实施例仅是为了使本领域的技术人员能够更好地理解并实现本公开,而并非以任何方式限制本公开的范围。
图1示出了本公开的实施例可以在其中实现的文件备份系统环境100的示意图。如图1所示,系统环境100包括计算设备110,计算设备110上存储有文件集合120。一般而言,文件集合120可以用于组织和管理计算设备110中的各种文件或数据。例如,文件集合120可以对应于计算机系统或存储系统中的文件系统。应当理解,尽管图1将文件集合120示出为形成在计算设备110内部,但这只是示例性的,无意以任何方式限制本公开的范围。在一些实施例中,文件集合120也可以在不同于计算设备110的其他计算设备上。例如,计算设备110可以是用于提供备份服务的服务器,而该其他计算设备可以是计算设备110要进行备份服务的客户端。
为了向文件集合120中的文件或数据提供保护,计算设备110可以根据用户的备份指令、定期地、或按照预定的备份策略,将文件集合120备份到备份存储设备130中。例如,计算设备110上可以运行用于文件或数据保护的应用程序来执行对文件集合120的备份。为此,计算设备110和备份存储设备130可以经由通信链路140进行通信。例如,计算设备110可以经由通信链路140将要备份的文件或数据内容传送到备份存储设备130,从备份存储设备130获得各种备份文件或备份数据,以及执行任何其他适当的文件或数据通信,等等。
此外,计算设备110还可以经由通信链路140向备份存储设备130发送控制信号,以实现对备份存储设备130的各种控制、管理和操作。应当明白,尽管图1将备份存储设备130描绘为在计算设备110的外部,但这只是示例性的,无意以任何方式限制本公开的范围。在一些实施例中,备份存储设备130也可以被包括在计算设备110的内部作为其组成部分。
在一些实施例中,备份存储设备130可以是云存储系统或其他远程的存储服务器。在其他实施例中,备份存储设备130也可以是向用户提供存储服务或功能的任何具有存储功能的系统。在一些实施例中,备份存储设备130可以使用各种类型的具有存储功能的设备来提供存储功能,包括但不限于,硬盘(HDD)、固态盘(SSD)、可移除盘、紧致盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘、串行附接小型计算机系统接口(SCSI)存储盘(SAS)、串行高级技术附接(SATA)存储盘、任何其他磁性存储设备和任何其他光学存储设备、或它们的任何组合。
在一些实施例中,计算设备110可以包括任何能够实现计算功能和/或控制功能的设备,包括但不限于,专用计算机、通用计算机、通用处理器、微处理器、微控制器、或状态机。计算设备110还可以实施为个体计算设备或计算设备的组合,例如,数字信号处理器(DSP)和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核心、或者任何其他这样的配置。另外,在本公开的上下文中,计算设备110也可以称为电子设备110,这两个术语在本文中可以互换地使用。
在一些实施例中,通信链路140可以是能够实现计算设备110与备份存储设备130之间的数据通信或控制信号通信的任何形式的连接或耦合,包括但不限于,同轴电缆、光纤电缆、双绞线、或无线技术(诸如红外、无线电和微波)。在一些实施例中,通信链路140可以包括各种类型的总线。在其他实施例中,通信链路140可以包括计算机网络、通信网络、或者其他有线或无线网络。
应当理解,图1仅示意性地示出了文件备份系统环境100中的与本公开的实施例相关的单元、模块或组件。在实践中,文件备份系统环境100还可以包括用于其他功能的其他单元、模块或组件。因此,本公开的实施例不限于图1所描绘的具体设备、单元、模块或组件,而是一般性地适用于任何可以执行文件或数据备份的系统环境。
如上文提到的,对于现代文件系统而言,传统的文件备份方式可能存在一些问题和不足,因而在许多场景下无法满足文件备份的性能要求,从而造成了不良的用户体验。特别地,在传统的文件备份方式中,所有的文件在一个备份会话中混合在一起进行备份。例如,在一些传统的备份系统中,文件数据可能分布在Merkle树结构的不同分支上。而在另一些传统的备份系统中,文件数据可能分布在容器文件的不同部分中。在文件恢复期间,为了浏览可恢复的文件,用户可以使用两种方式。
第一种方式是从文件的元数据中在线地读取文件或目录结构相关信息,并且手动地选择要恢复的文件。第二种方式是使用搜索工具读取文件的元数据并在缓存中建立索引,然后使用被缓存并建立索引的元数据来选择要恢复的文件。然而,以上两种方式都需要人工干预。当文件集或数据集很大时,几乎不可能依靠人工选择来筛选出要恢复的文件。在这个方面,上述第二种方式使用缓存的元数据来实现搜索功能,这可以在某种程度上减轻用户的不便和繁琐,但是其需要消耗中央处理器(CPU)和存储器来建立索引缓存,增加了系统开销。
另一方面,现代文件系统中可能存储有数百种或更多种不同的文件类型的文件。在执行文件备份时,按照传统备份方式,在一个备份会话中,将这些具有不同文件类型的文件备份到的一个备份文件中可能存在以下两方面的问题。
首先,这种传统备份方式可能导致缓慢和不便的文件恢复。例如,用户选择进行文件系统备份可能是因为用户想要进行文件级别的恢复。也就是说,用户可能不期望恢复一个备份会话中备份的所有文件,因为这可能是缓慢且不必要的。替代地,用户可能只是希望恢复某种类型的文件,例如,音频文件(诸如,MP3格式文件、WAV格式文件等)、视频文件(诸如,AVI格式文件、MKV格式文件等)、图片文件(诸如,JPEG格式文件、PNG格式文件等)、或其他类型的文件。如果采用传统的备份方式,则用户必须通过浏览备份内容来手动地选择想要恢复的文件,这是非常低效和不便的。
其次,传统备份方式还可能导致降低的去重率和吞吐率。具体地,几乎所有的现代备份解决方案均使用去重技术,来加速去重吞吐率并且优化存储容量。不同的备份解决方案可能采用不同的去重技术,例如可变大小分块技术、固定大小分块等。然而,这些去重技术都遵循相同的规则,即数据模式(pattern)极大地影响去重率。另外,在大文件集合中,具有相同文件类型的文件通常具有更高的相似度。在传统的备份方式中,在一个备份会话中将所有文件类型混合在一起的备份过程无法充分利用数据模式相似性,因此降低了去重率。
再者,随着文件系统大小和文件类型复杂性的快速增长,用户恢复特定文件类型的需求不断提高。因此,用户可能不满意恢复缓慢且存储不友好的传统备份方式,并且用户还可能不愿意手动地选择要恢复的特定文件,因为这不仅是繁琐的还是耗时的。总之,具有混合文件类型的传统文件备份和恢复方式无法满足用户的备份需求,因为文件混合在一起进行备份的固有特性,使得在文件恢复过程中不容易按照文件类型来筛选出需要恢复的文件。
鉴于传统方案中存在的上述问题以及潜在的其他问题,本公开的实施例提出了一种用于文件备份的技术方案。在一些实施例中,该技术方案实现了文件类型与备份文件之间的关联性,以改进文件备份和文件恢复过程。另外,该技术方案可以利用已有的文件备份和恢复框架,来提供一种简化且用户友好的方式以实现基于文件类型的文件恢复。另外,该技术方案还可以提供基于文件类型的文件局部性的增强,以提高去重率和吞吐率。此外,该技术方案还可以为文件系统备份提供可靠的多流解决方案,以减少备份时间。总之,本公开的实施例可以改进文件备份和文件恢复的性能。下面结合图2至图6来详细地描述本公开的一些示例实施例。
图2示出了根据本公开的实施例的示例方法200的流程图。在一些实施例中,方法200可以由文件备份系统环境100中的计算设备110来实现,例如可以由计算设备110的处理器或处理单元来实现,或者由计算设备110的各种功能模块来实现。在其他实施例中,方法200也可以由独立于系统环境100的计算设备来实现,或者可以由系统环境100中的其他单元或模块来实现。
图3示出了根据本公开的实施例的基于文件类型的文件备份系统300的示例架构。为了更好地说明和解释计算设备110执行方法200的过程,下文将结合图3中的示例架构来描述方法200的各种操作。然而,将理解,图3中描绘的文件备份系统300的示例架构仅是示例性的,无意以任何方式限制本公开的实施例的范围。在其他实施例中,计算设备110可以基于任何适当的系统架构来执行方法200。
参考图2和图3,在210处,计算设备110将待备份的文件集合120划分成多个文件子集,也即,第一文件子集310、第二文件子集320、第三文件子集330、第四文件子集340和第五文件子集350,等等。将理解,图3中示出的特定数目的文件子集和特定数目的其他元素仅为示例性的,无意以任何方式限制本公开的范围。在其他实施例中,文件集合120可以划分成任何适当数目的文件子集,而图3中的其他任何元素也可以具有任何其他适当的数目。
在本公开的实施例中,每个文件子集310至350中的文件均具有相同的文件类型。例如,第一文件子集310中的文件可以具有第一文件类型,第二文件子集320中的文件可以具有第二文件类型,第三文件子集330中的文件可以具有第三文件类型,第四文件子集340中的文件可以具有第四文件类型,并且第五文件子集350中的文件可以具有第五文件类型,等等。在一些实施例中,第一至第五文件类型可以是不同的文件类型。
一般地,计算设备110可以采用任何文件类型的划分方式来划分待备份的文件集合120。作为一种示例,待备份的文件集合120中的文件可以按照文件在计算机系统中的文件扩展名所指示的文件格式来划分文件类型。例如,第一文件类型可以是扩展名为EXE的文件类型,第二文件类型可以是扩展名为DOC的文件类型,第三文件类型可以是扩展名为AVI的文件类型,第四文件类型可以是扩展名为MP3的文件类型,并且第五文件类型可以是扩展名为SQL的文件类型,等等。以此方式,计算设备110可以重用文件在计算机系统中的已有文件类型,而无需针对文件备份再次为文件设置文件类型,从而简化了本公开的实施例的实现。
替换地或另外地,用于执行文件备份的文件类型不需要与特定文件扩展名进行一比一的映射,而是可以映射到预配置的通用文件类型。换言之,用于文件备份的文件类型可以包括用户自定义的文件类型。例如,该文件类型可以是“视频”,这意味着它可以涵盖所有与视频相关的文件类型,例如,AVI文件、WMV文件、MKV文件等。又例如,该文件类型可以是“办公文件”,这意味着它可以涵盖所有与办公相关的文件类型,例如,PPT文件、DOC文件等。将用于文件备份的文件类型映射到通用文件类型具有显著的技术优点。例如,用户可以根据自己的偏好来自定义文件类型,以便实现特定用户的特定文件分类目的。
此外,对于某个文件,其文件类型可以是预配置的文件类型之一,也可以是类型名称为“其他”的文件类型。如此,计算设备110可以将不适合分类到用户自定义的明确文件类型的文件归类到“其他”类型。在下文的一些描述中,将假定第一文件子集310的第一文件类型是图片(PIC)文件类型,第二文件子集320的第二文件类型是视频(VIDEO)文件类型,而第五文件子集350的第五文件类型是其他(OTHERS)文件类型。然而,将理解,这些描述中的具体文件类型仅是示意性的,无意以任何方式限制本公开的范围。在其他实施例中,用于文件备份的第一至第五文件类型以及更多的文件类型可以是任何适当的文件类型。
在一些实施例中,计算设备110还可以组合地使用上述两种文件类型划分方式或者其他的文件类型划分方式。例如,文件集合120中的某个文件可以具有“MP3”和“音频”两种文件类型。在这种情况下,在后续的文件备份过程中,该文件既可以被备份到与MP3文件类型相对应的备份文件中,也可以被备份到与音频文件类型相对应的备份文件中。以此方式,在文件恢复过程中,计算设备110可以向用户提供更多的可供恢复的文件类型。
一般而言,文件系统的备份过程可以包含若干阶段,其中包括文件遍历阶段。在文件遍历期间,计算设备110可以对待备份的文件集合120中的文件执行一系列操作,例如,创建文件的元数据,通过检查文件缓存来检查文件重复、对文件分块,等等。所创建的文件元数据通常可以包括与文件有关的信息,诸如文件名、文件大小、所有者、群组、访问控制列表(ACL)等信息。
因此,在一些实施例中,不论文件集合120采用何种文件类型的划分方式被划分,在执行文件备份时,计算设备110可以确定待备份的文件集合120中的每个文件的文件类型。然后,计算设备110可以生成与每个文件相关联的元数据,以包括指示该文件的文件类型的信息。例如,计算设备110可以将一个新字段“ftype”添加到文件的元数据中,以指示文件的类型。如此,计算设备110可以充分地利用待备份文件的已有元数据来标识文件的类型,而无需另外地设置用于指示文件类型的标识符。下面结合图4来描述使用元数据来标识文件类型的一种具体示例。
图4示出了根据本公开的实施例的包括文件类型信息的示例文件元数据。如图4所示,假设第一文件子集310中的某个文件(下文也称为第一文件)具有的第一文件类型为图片(PIC)文件类型,那么第一文件的第一元数据410中可以包括指示第一文件的文件类型的信息,例如,“ftype=PIC”。同样地,第一文件子集310中的其他文件的元数据中也都可以包括指示文件类型的信息,例如,“ftype=PIC”。
类似地,假设第二文件子集320中的某个文件(下文也称为第二文件)具有的第二文件类型为视频(VIDEO)文件类型,那么第二文件的第二元数据420中可以包括指示第二文件的文件类型的信息,例如,“ftype=VEDIO”。同样地,第二文件子集320中的其他文件的元数据中也都可以包括指示文件类型的信息,例如,“ftype=VEDIO”。
类似地,假设第五文件子集350中的某个文件(下文也称为第五文件)具有的第五文件类型为其他(OTHERS)文件类型,那么第五文件的第五元数据450中可以包括指示第五文件的文件类型的信息,例如,“ftype=OTHERS”。同样地,第五文件子集350中的其他文件的元数据中也都可以包括指示文件类型的信息,例如,“ftype=OTHERS”。
将理解,图4中所描绘的第一元数据410、第二元数据420和第五元数据450等仅为示意性的,无意以任何方式限制本公开的范围。例如,第一元数据410被描绘为还包括文件名(file1.jpeg)、用户ID(uid)、群组ID(gid)和模式(mode)等信息,第二元数据420被描绘为还包括文件名(file2.avi)、用户ID、群组ID和模式等信息,并且第五元数据450被描绘为还包括文件名(file5.sst)、用户ID、群组ID和模式(mode)等信息。然而,在其他实施例中,第一元数据410、第二元数据420和第五元数据450等可以包括更多的文件信息、更少的文件信息、以及与所示出的不同的文件信息。
在一些实施例中,在待备份的文件集合120中的文件的元数据包括文件类型信息的情况下,计算设备110可以基于文件的元数据,而将文件集合120划分成对应于不同文件类型的多个文件子集310至350等。以此方式,一旦待备份的文件的文件类型信息已经被记录在文件的元数据中,计算设备110就可以利用文件的元数据中的类型信息来执行针对该文件的多次备份,从而避免了每当进行文件备份时均需要重新确定文件的类型。
返回参考图2和图3,在220处,计算设备110分别基于多个文件子集310至350等来生成多个备份文件(也可以称为子容器文件)315至355等。例如,备份文件315至355等可以被存储到备份存储设备130中。具体地,计算设备110可以基于第一文件子集310来生成第一备份文件315,基于第二文件子集320来生成第二备份文件325,基于第三文件子集330来生成第三备份文件335,基于第四文件子集340来生成第四备份文件345,并且基于第五文件子集350来生成第五备份文件355,等等。
因此,多个备份文件315至355等可以分别对应于多个文件子集310至350等中的文件的多个文件类型。也就是说,第一备份文件315可以对应于第一文件类型,第二备份文件325可以对应于第二文件类型,第三备份文件335可以对应于第三文件类型,第四备份文件345可以对应于第四文件类型,并且第五备份文件355可以对应于第五文件类型,等等。这种按照文件类型来分别生成备份文件315至355等的方式相比传统的备份方式具有显著的技术优点,详述如下。
对于一个文件系统的备份会话,传统上只有一个备份文件用于容纳所有的文件内容,其背后的逻辑是在不同备份会话之间保持相似的文件顺序,以保留文件之间的局部性,从而提高去重率和吞吐率。结果是所有的文件都被馈入到一个备份文件的一个写入流中。但是,将不同类型的文件混合在一起进行备份并不利于提高去重率和吞吐量。
例如,假设存在4个文件f1,f2,f3和f4,其中f1和f3具有相同的文件类型,因此共享更多重复的文件段(segment),并且f2和f4具有相同的文件类型,因此共享更多重复的文件段。然而,f1与f2几乎没有共同的文件段,f3与f4也几乎没有共同的文件段。为了简化,假设存储器中的段索引缓存仅适用于一个文件范围,则这4个文件将以1至4的顺序进行遍历和写入。
具体地,备份系统可以首先对f1执行去重,将f1的所有文件段写入备份文件,之后f1的文件段索引被缓存。接着,备份系统可以对f2执行去重,并在文件段索引缓存中未发现任何相同的文件段,因此f2所有的文件段均写入备份文件中,之后文件段索引缓存被f2取代。然后,备份系统可以对f3进行去重,并且在文件段索引缓存中未找到任何匹配的文件段,因此需要从备份文件中查询重复的文件段,这可能导致缓慢的磁盘输入/输出(I/O),之后文件段索引缓存被f3取代。接着,备份系统对f4进行去重,并且在文件段索引缓存中未找到匹配的文件段,而需要从备份文件中查询重复的文件段,这会导致磁盘I/O缓慢,之后文件段索引缓存被f4取代。
由此可见,在某些极端的情况下,每个文件的摄取都会与存储器中的文件段索引缓存不匹配,从而导致大量慢速的磁盘I/O来从备份文件中查询重复的文件段。相比之下,具有相同类型的文件被备份到单独的备份文件中的优势是明显的,其可以在保留基于文件类型的文件局部性的同时,提高重复数据删除和吞吐率。
例如,继续使用上面的示例,在本公开的实施例中将f1和f3备份到相同的备份文件中,而将f2和f4备份到另一备份文件中。计算设备110可以首先对f1执行去重,并将所有文件段写入备份文件中,之后f1的文件段索引被缓存。接着,计算设备110可以对f3进行去重,然后可以在f1的文件段索引缓存中发现大量相同的文件段,因此可以将相同的文件段合成,而只有很少的新文件段写入备份文件。类似地,同样的益处也存在于f2和f4的备份过程中。
此外,在一些实施例中,在生成多个备份文件315至355等时,计算设备110可以创建与多个文件子集310至350等相对应的并行的多个线程,用于分别执行对文件子集310至350等的备份。然后,计算设备110可以针对每个文件子集,通过相应的线程,基于文件子集中的文件来生成相应的备份文件。换句话说,计算设备110可以使用多个线程来并行地将第一文件子集310备份到第一备份文件315,将第二文件子集320备份到第二备份文件325,将第三文件子集330备份到第三备份文件335,将第四文件子集340备份到第四备份文件345,并且将第五文件子集350备份到第五备份文件355,等等。这种并行备份的方式相比传统的备份方式也具有明显的技术优点,详述如下。
在传统的单备份文件的备份过程中,备份系统仅建立一个写入流以高度保留文件之间的局部性,代价是只能使用单线程。相比之下,在本公开的实施例中,计算设备110可以按照文件类型将不同的文件分为多个文件子集,因此可以建立多个摄取流(ingeststream)来并行地生成多个备份文件。如果用于传输备份文件或数据内容的数据链路不是瓶颈,那么在理想情况下,文件集合120的备份时间可以减少到1/N,其中N是文件类型的数量。此外,在每个文件子集中,文件处理的顺序是保持不变的,因此也保留了文件之间的局部性。
在一些实施例中,在生成多个备份文件315至355等之后,针对多个文件子集310至350等中的每个文件子集,计算设备110可以确定与文件子集相对应的备份文件的标识符。例如,计算设备110可以确定对应于第一文件子集310的第一备份文件315的标识符、对应于第二文件子集320的第二备份文件325的标识符、对应于第三文件子集330的第三备份文件335的标识符、对应于第四文件子集340的第四备份文件345的标识符、以及对应于第五文件子集350的第五备份文件355的标识符,等等。
然后,计算设备110可以将备份文件的标识符添加到对应的文件子集中的文件的元数据中。例如,计算设备110可以将第一备份文件315的标识符添加到第一文件子集310中的文件的元数据中,将第二备份文件325的标识符添加到第二文件子集320中的文件的元数据中,将第三备份文件335的标识符添加到第三文件子集330中的文件的元数据中,将第四备份文件345的标识符添加到第四文件子集340中的文件的元数据中,并且将第五备份文件355的标识符添加到第五文件子集350中的文件的元数据中,等等。下面结合图5来描述将备份文件标识符添加到对应文件的元数据的具体示例。
图5示出了根据本公开的实施例的包括备份文件标识符的示例文件元数据。如图5所示,继续使用在描述图4时所使用的示例,在文件类型为图片(PIC)的第一文件被备份到第一备份文件315之后,计算设备110可以将第一备份文件315的标识符添加到第一文件的元数据510中。例如,元数据510可以包括信息“backup file ID=1”。类似地,在文件类型为视频(VIDEO)的第二文件被备份到第二备份文件325之后,计算设备110可以将第二备份文件325的标识符添加到第二文件的元数据510中。例如,元数据520可以包括信息“backupfile ID=2”。同样地,在文件类型为其他(OTHERS)的第五文件被备份到第五备份文件355之后,计算设备110可以将第五备份文件355的标识符添加到第五文件的元数据550中。例如,元数据550可以包括信息“backup file ID=5”。
以此方式,在后续的文件恢复操作中,计算设备110可以从文件的元数据来确定某个文件应当从哪个备份文件中来恢复,从而使得本公开的实施例也可以适用于不基于文件类型的文件恢复方式。例如,在这种恢复方式中,计算设备110可以向用户提供可恢复的文件目录和列表,从而用户可以选择要恢复的一个或多个特定的文件,而不用先选择要恢复的文件类型。在这种情况下,计算设备110可以从用户选择的文件的元数据中确定从哪个备份文件中恢复用户选择的文件。
返回参考图2和图3,在230处,计算设备110基于多个备份文件315至355等,来生成与待备份的文件集合120相对应的总备份文件360。也就是说,计算设备110可以基于第一备份文件315、第二备份文件325、第三备份文件335、第四备份文件345和第五备份文件355,来生成总备份文件360,以完成对文件集合120的一次完整备份370。例如,完整备份370可以对应于一次备份会话。
在一些实施例中,计算设备110生成总备份文件360将是有利的。例如,尽管计算设备110可以在一个备份会话生成与不同文件类型相对应的多个备份文件,但是在一些情况下,可能仍然需要代表整个备份会话的整体备份文件。例如,许多备份操作,诸如保留、到期、复制、云移动之类的管理操作需要以备份为单位来完成,而不是在对应于文件类型的多个备份文件中完成。此外,总备份文件360中还可以维护有关于哪个备份文件表示哪种文件类型的信息。
一般地,计算设备110可以使用任何适当的方式从多个备份文件315至355等生成总备份文件360。例如,计算设备110可以将备份文件315至355等的内容复制到总备份文件360中。通过这种直接的方式,计算设备110可以提供对文件集合120的双重保护。替换地,在其他实施例中,计算设备110可以创建逻辑上指向多个备份文件315至355等的引用文件以作为总备份文件360,从而不占用额外的存储空间。下面结合图6来描述计算设备110生成引用文件作为总备份文件360的具体示例。
图6示出了根据本公开的实施例的生成引用文件以作为总备份文件360的示意图。如图6所示,计算设备110可以首先创建一个引用文件,该引用文件例如占用几乎可以忽略不计的较低存储空间。然后,计算设备110可以通过引用关系610、620和650等,将该引用文件在逻辑上指向多个备份文件315至355等,从而生成总备份文件360。换言之,所生成的总备份文件360可以是一个备份会话的所有备份文件的组合。但是,这种组合可以是一个逻辑上的概念,也即,总备份文件360可以不占用任何额外的物理存储空间。计算设备110可以采用多种方法来实现该目标,例如操作系统(OS)级别的软链接或硬链接、存储系统中的快速复制技术,等等。在生成总备份文件360之后,文件备份系统的管理工作流605可以通过访问总备份文件360来完成,例如,对总备份文件360的访问将被链接到多个备份文件315至355等,从而进一步访问到多个备份文件315至355等。
在作为管理工作流605的示例的文件恢复操作中,计算设备110可以基于用户的文件恢复请求,从总备份文件360来恢复出文件集合120中的文件。在一些实施例中,由于文件集合120是按照文件类型来备份的,所以计算设备110也可以相应地按照文件类型来恢复出文件集合120中的文件。例如,在接收到来自用户的文件恢复请求之后,计算设备110可以确定从总备份文件360可恢复的多个文件类型,例如,第一类型至第五类型等。为此,计算设备110可以从总备份文件360读取所支持的用于备份的文件类型。例如,计算设备110可以从总备份文件360的元数据来获得该信息。
接着,计算设备110可以向用户提供指示多个文件类型的信息,以便用户在多个文件类型中选择目标文件类型,以执行文件恢复操作。通过这样的方式,用户可以灵活地选择要恢复的文件类型。举例而言,计算设备110可以在显示设备上显示所支持的文件类型供用户选择。继续使用上文的示例,计算设备110可以向用户显示第一文件类型(诸如,图片文件类型)、第二文件类型(诸如,视频文件类型)、……、第五文件类型(诸如,其他文件类型),等等。将明白,计算设备110也可以通过其他任何适当的人机交互方式向用户提供上述信息,诸如语音交互方式、触觉交互方式等。
如果用户在可用于恢复的多个文件类型中选择了目标文件类型,则计算设备110可以在多个备份文件315至355等中,确定与目标文件类型相对应的目标备份文件。也即,用户选择一种或多种文件类型,计算设备110可以通过总备份文件360将其映射到特定的备份文件。例如,假定用户选择了要恢复第二文件类型(诸如,视频文件类型)的文件,那么计算设备110可以确定与第二文件类型相对应的第二备份文件325作为目标备份文件。
为此,计算设备110可以从第二备份文件325的元数据中确定其对应于第二文件类型。然后,计算设备110可以基于目标备份文件325来恢复具有目标文件类型(诸如,视频文件类型)的文件。例如,计算设备110可以直接恢复出第二备份文件325中所备份的所有视频文件。通过这样的方式,避免了在传统备份方式下用户为了恢复特定文件类型的所有文件所需要的繁琐且不方便的浏览和选择操作。
备选地,计算设备110还可以基于用户的选择来恢复出具有某种文件类型的特定的一个或多个文件。为此,假设用户选择了目标文件类型325,计算设备110同样可以在多个备份文件315至355等中,确定与目标文件类型(例如,视频文件类型)相对应的目标备份文件,例如,第二备份文件325。
然后,计算设备110可以向用户提供指示备份文件中的可恢复文件的信息,以便用户在可恢复文件中选择要恢复的目标文件。例如,计算设备110可以在显示设备上显示出从第二备份文件325中可以恢复出的所有文件的列表。如此,用户可以灵活地选择要恢复的具有特定文件类型的文件。
接着,在用户选择了要恢复的目标文件的情况下,计算设备110可以基于目标备份文件来恢复目标文件。以此方式,用户恢复特定文件类型的文件的灵活性得到了提高,同时相对于传统备份方式也简化了用户恢复特定文件类型的一个或多个文件时所需要的操作。
总而言之,本公开的实施例提出了一种用于文件备份的技术方案,其从备份过程的起源开始,将具有不同类型的文件分别备份到单独的备份文件中,同时相对于传统的备份方式未造成额外的备份开销。以此方式,除了简化文件备份和恢复操作之外,由于对待备份文件的适当分类,还增强了文件备份中的基于文件类型的局部性,并且还可以利用并行的多流备份,因此可以提高备份性能。
更具体地,本公开的实施例的基于文件类型的文件备份和恢复解决方案在备份过程中完成文件类型分类,并且将文件的分类信息记录在文件的元数据和备份文件的元数据中。在随后的文件恢复中,用户可以便利地一键式恢复特定的文件类型。同样地,由于将不同类型的文件备份在不同的备份文件中,因此具有相似数据模式的文件更可能位于同一位置,从而提高了去重率。
对于文件系统的文件备份操作,文件在备份过程中根据文件类型被分类,这种分类可以集成到文件的遍历过程中,因此不会带来额外的系统开销。备份系统可以按照文件类型将要备份的文件分为不同的文件子集,并且多个文件子集在备份会话中被表示和生成到对应的备份文件中。作为结果,对于一个备份会话,备份系统可以生成一个总备份文件,并且总备份文件可以具有一个或多个备份文件,每个备份文件都包含一种文件类型的文件内容。在一些实施例中,总备份文件可以是所有备份文件的逻辑组合(例如,快照机制),因此它不占用额外的存储容量。
对于文件系统的文件恢复操作,用户可以通过选择总备份文件来简单地恢复整个已备份的文件集合,或者用户可以通过选择对应于特定文件类型的备份文件来选择恢复具有特定文件类型的文件。在一些实施例中,文件的元数据可以保留在备份文件中。因此,如果用户只希望恢复单个文件,则仍然可以使用基于元数据所实现的文件级的浏览和搜索操作。
图7示意性地示出了一种可以被用来实施本公开的实施例的设备700的框图。在一些实施例中,设备700可以是电子设备,其可以用于实施图1中的计算设备110。如图7中所示出的,设备700包括中央处理单元(CPU)701,其可以根据存储在只读存储设备(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储设备(RAM)703中的计算机程序指令,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。CPU701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法200可由处理单元701来执行。例如,在一些实施例中,方法200可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序被加载到RAM703并由CPU 701执行时,可以执行上文描述的方法200的一个或多个步骤。
如本文所使用的,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。本文还可能包括其他明确的和隐含的定义。
如本文所使用的,术语“确定”涵盖各种各样的动作。例如,“确定”可以包括运算、计算、处理、导出、调查、查找(例如,在表格、数据库或另一数据结构中查找)、查明等。此外,“确定”可以包括接收(例如,接收信息)、访问(例如,访问存储器中的数据)等。此外,“确定”可以包括解析、选择、选取、建立等。
应当注意,本公开的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。
此外,尽管在附图中以特定顺序描述了本公开的方法的操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤组合为一个步骤执行,和/或将一个步骤分解为多个步骤执行。还应当注意,根据本公开的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
虽然已经参考若干具体实施例描述了本公开,但是应当理解,本公开不限于所公开的具体实施例。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等效布置。

Claims (15)

1.一种用于文件备份的方法,包括:
将待备份的文件集合划分成多个文件子集,每个文件子集中的文件具有相同的文件类型;
分别基于所述多个文件子集来生成多个备份文件,所述多个备份文件分别对应于所述多个文件子集中的文件的多个文件类型;以及
基于所述多个备份文件,来生成与所述文件集合相对应的总备份文件,
其中生成所述多个备份文件包括:
创建与所述多个文件子集相对应的并行的多个线程;以及
针对所述多个文件子集中的每个文件子集,通过所述多个线程中与所述文件子集相对应的线程,基于所述文件子集中的文件来生成与所述文件子集相对应的备份文件;
所述方法还包括:
创建逻辑上指向所述多个备份文件的引用文件,以作为所述总备份文件;
根据接收到来自用户的文件恢复请求,确定从所述总备份文件可恢复的与所述多个备份文件相对应的多个文件类型;以及
向所述用户提供指示所述多个文件类型的信息,以便所述用户在所述多个文件类型中选择目标文件类型。
2.根据权利要求1所述的方法,还包括:
针对所述文件集合中的每个文件,
确定所述文件的文件类型;以及
生成与所述文件相关联的元数据,所述元数据包括指示所述文件的文件类型的信息;
其中将所述文件集合划分成所述多个文件子集包括:
基于所述文件集合中的文件的所述元数据,将所述文件集合划分成所述多个文件子集。
3.根据权利要求1所述的方法,还包括:
在生成所述多个备份文件之后,针对所述多个文件子集中的每个文件子集,
确定所述多个备份文件中的与所述文件子集相对应的备份文件的标识符;以及
将所述标识符添加到所述文件子集中的文件的元数据中。
4.根据权利要求1所述的方法,还包括:
根据确定所述用户选择所述目标文件类型,确定所述多个备份文件中与所述目标文件类型相对应的目标备份文件;以及
基于所述目标备份文件来恢复具有所述目标文件类型的文件。
5.根据权利要求1所述的方法,还包括:
根据确定所述用户选择所述目标文件类型,确定所述多个备份文件中与所述目标文件类型相对应的目标备份文件;以及
向所述用户提供指示所述备份文件中的可恢复文件的信息,以便所述用户在所述可恢复文件中选择要恢复的目标文件。
6.根据权利要求5所述的方法,还包括:
根据确定所述用户选择所述目标文件,基于所述目标备份文件来恢复所述目标文件。
7.根据权利要求1所述的方法,其中所述文件类型包括用户自定义的文件类型。
8.一种电子设备,包括:
至少一个处理器;以及
存储有计算机程序指令的至少一个存储器,所述至少一个存储器和所述计算机程序指令被配置为,与所述至少一个处理器一起,使得所述电子设备:
将待备份的文件集合划分成多个文件子集,每个文件子集中的文件具有相同的文件类型;
分别基于所述多个文件子集来生成多个备份文件,所述多个备份文件分别对应于所述多个文件子集中的文件的多个文件类型;以及
基于所述多个备份文件,来生成与所述文件集合相对应的总备份文件;
其中所述电子设备通过以下来生成所述多个备份文件:
创建与所述多个文件子集相对应的并行的多个线程;以及
针对所述多个文件子集中的每个文件子集,通过所述多个线程中与所述文件子集相对应的线程,基于所述文件子集中的文件来生成与所述文件子集相对应的备份文件;
其中所述至少一个存储器和所述计算机程序指令被配置为,与所述至少一个处理器一起,使得所述电子设备通过以下来生成所述总备份文件:
创建逻辑上指向所述多个备份文件的引用文件,以作为所述总备份文件;
根据接收到来自用户的文件恢复请求,确定从所述总备份文件可恢复的与所述多个备份文件相对应的多个文件类型;以及
向所述用户提供指示所述多个文件类型的信息,以便所述用户在所述多个文件类型中选择目标文件类型。
9.根据权利要求8所述的电子设备,其中所述至少一个存储器和所述计算机程序指令还被配置为,与所述至少一个处理器一起,使得所述电子设备:
针对所述文件集合中的每个文件,
确定所述文件的文件类型;以及
生成与所述文件相关联的元数据,所述元数据包括指示所述文件的文件类型的信息;
其中所述至少一个存储器和所述计算机程序指令被配置为,与所述至少一个处理器一起,使得所述电子设备通过以下来将所述文件集合划分成所述多个文件子集:
基于所述文件集合中的文件的所述元数据,将所述文件集合划分成所述多个文件子集。
10.根据权利要求8所述的电子设备,其中所述至少一个存储器和所述计算机程序指令还被配置为,与所述至少一个处理器一起,使得所述电子设备:
在生成所述多个备份文件之后,针对所述多个文件子集中的每个文件子集,
确定所述多个备份文件中的与所述文件子集相对应的备份文件的标识符;以及
将所述标识符添加到所述文件子集中的文件的元数据中。
11.根据权利要求8所述的电子设备,其中所述至少一个存储器和所述计算机程序指令还被配置为,与所述至少一个处理器一起,使得所述电子设备:
根据确定所述用户选择所述目标文件类型,确定所述多个备份文件中与所述目标文件类型相对应的目标备份文件;以及
基于所述目标备份文件来恢复具有所述目标文件类型的文件。
12.根据权利要求8所述的电子设备,其中所述至少一个存储器和所述计算机程序指令还被配置为,与所述至少一个处理器一起,使得所述电子设备:
根据确定所述用户选择所述目标文件类型,确定所述多个备份文件中与所述目标文件类型相对应的目标备份文件;以及
向所述用户提供指示所述备份文件中的可恢复文件的信息,以便所述用户在所述可恢复文件中选择要恢复的目标文件。
13.根据权利要求12所述的电子设备,其中所述至少一个存储器和所述计算机程序指令还被配置为,与所述至少一个处理器一起,使得所述电子设备:
根据确定所述用户选择所述目标文件,基于所述目标备份文件来恢复所述目标文件。
14.根据权利要求8所述的电子设备,其中所述文件类型包括用户自定义的文件类型。
15.一种计算机程序产品,所述计算机程序产品被有形地存储在非易失性计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行时使机器执行根据权利要求1-7中任一项所述的方法的步骤。
CN201910990429.2A 2019-10-17 2019-10-17 基于文件类型的文件备份 Active CN112685223B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910990429.2A CN112685223B (zh) 2019-10-17 2019-10-17 基于文件类型的文件备份
US16/804,302 US11429494B2 (en) 2019-10-17 2020-02-28 File backup based on file type

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910990429.2A CN112685223B (zh) 2019-10-17 2019-10-17 基于文件类型的文件备份

Publications (2)

Publication Number Publication Date
CN112685223A CN112685223A (zh) 2021-04-20
CN112685223B true CN112685223B (zh) 2024-12-20

Family

ID=75444642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910990429.2A Active CN112685223B (zh) 2019-10-17 2019-10-17 基于文件类型的文件备份

Country Status (2)

Country Link
US (1) US11429494B2 (zh)
CN (1) CN112685223B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11579978B2 (en) * 2018-02-14 2023-02-14 Rubrik, Inc. Fileset partitioning for data storage and management
US11537310B2 (en) * 2021-02-05 2022-12-27 Microsoft Technology Licensing, Llc Threading of replication based on data type
US12099557B2 (en) * 2021-09-02 2024-09-24 International Business Machines Corporation Archived data crawling
US20230305994A1 (en) * 2022-03-28 2023-09-28 Netapp, Inc. Methods and Systems for Archiving File System Data Stored by a Networked Storage System
CN115543918A (zh) * 2022-10-18 2022-12-30 上海爱数信息技术股份有限公司 一种文件快照方法、系统、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324552A (zh) * 2013-06-06 2013-09-25 西安交通大学 两阶段单实例去重数据备份方法
CN109344001A (zh) * 2018-08-29 2019-02-15 广东微云科技股份有限公司 一种虚拟机文件的并发备份方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060218435A1 (en) * 2005-03-24 2006-09-28 Microsoft Corporation Method and system for a consumer oriented backup
CN103902735B (zh) * 2014-04-18 2017-02-22 中国人民解放军理工大学 面向大规模集群消重的应用感知数据路由方法及系统
CN107391306B (zh) * 2017-07-27 2019-12-10 国家电网公司 一种异构数据库备份文件恢复方法
CN108021470A (zh) * 2017-10-27 2018-05-11 努比亚技术有限公司 一种资料备份方法、移动终端及计算机可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324552A (zh) * 2013-06-06 2013-09-25 西安交通大学 两阶段单实例去重数据备份方法
CN109344001A (zh) * 2018-08-29 2019-02-15 广东微云科技股份有限公司 一种虚拟机文件的并发备份方法及系统

Also Published As

Publication number Publication date
CN112685223A (zh) 2021-04-20
US11429494B2 (en) 2022-08-30
US20210117289A1 (en) 2021-04-22

Similar Documents

Publication Publication Date Title
CN112685223B (zh) 基于文件类型的文件备份
US10621142B2 (en) Deduplicating input backup data with data of a synthetic backup previously constructed by a deduplication storage system
JP7090606B2 (ja) データベース・システムにおけるテスト・データの形成及び動作
US10430398B2 (en) Data storage system having mutable objects incorporating time
US11714785B2 (en) Deduplicating extents across systems
US20170293450A1 (en) Integrated Flash Management and Deduplication with Marker Based Reference Set Handling
US20190325059A1 (en) Metadata tagsets with multiple personas in a storage appliance
US20090063410A1 (en) Method for Performing Parallel Data Indexing Within a Data Storage System
US10719554B1 (en) Selective maintenance of a spatial index
US10515055B2 (en) Mapping logical identifiers using multiple identifier spaces
US9678972B2 (en) Packing deduplicated data in a self-contained deduplicated repository
EP3042316B1 (en) Music identification
US20210064264A1 (en) Efficient restoration of content
US10185759B2 (en) Distinguishing event type
CN114385657A (zh) 数据存储方法、装置及存储介质
CN118484430A (zh) 数据访问方法、存储系统以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant