CN106844584B

CN106844584B - 元数据结构和基于其的操作方法、定位方法、切分方法

Info

Publication number: CN106844584B
Application number: CN201710016283.2A
Authority: CN
Inventors: 陆游游; 舒继武; 李思阳
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-01-10
Filing date: 2017-01-10
Publication date: 2019-12-17
Anticipated expiration: 2037-01-10
Also published as: CN106844584A

Abstract

本发明公开了一种元数据结构和基于其的操作方法、定位方法、切分方法，该结构包括：目录元数据结构，所述目录元数据包括：目录索引；多个目录元数据，其中，所有目录元数据的数据字段为定长字段；文件元数据结构，所述文件元数据包括：文件索引；多个文件元数据，其中，所有文件元数据的数据字段为定长字段。本发明的元数据结构具有如下优点：实现元数据在内存与外存的统一表示，无需对元数据字段进行序列化和反序列化操作。

Description

元数据结构和基于其的操作方法、定位方法、切分方法

技术领域

本发明涉及计算机领域，具体涉及一种元数据结构和基于其的操作方法、定位方法、切分方法。

背景技术

分布式文件系统是一种普遍使用的存储系统。具有很多优点，如可扩展性强，维护简单，成本较低等，因此，很适合存储大量的，且增长很快的数据。但是，分布式文件系统也存在一些不足，如延迟较高，对元数据访问的可扩展性差等特点。

分布式文件系统中最为重要的就是关于元数据的管理，一种广泛使用的方法就是将元数据存放在键值存储(Key-Value Store)系统中。这种键值系统能够高效的完成元数据的查询，并且可以保证数据的一致性(Consistency)，持久性(Durability)。由于键值系统是目前被广泛应用的系统，所以采用键值系统存储分布式文件系统的元数据是非常适合的。

为了支持高效的元数据访问，在使用键值存储的系统中，需要在键值存储之上构建结构化元数据缓存层，将非结构化的元数据在内存中进行结构化。即对于一次创建或者更改元数据的操作，客户端首先将请求发送到元数据服务器，元数据服务器在接收到请求后，首先将元数据缓存在元数据服务器的结构化元数据缓存层，之后序列化到键值存储系统中，键值存储系统最后将对于元数据的更改持久化到硬盘。而对于一次读取元数据的操作，客户端首先将请求发送到元数据服务器，元数据服务器接收到请求后，如果元数据在结构化缓存中，则直接返回结果，如果不在结构化缓存中，则从键值存储中读取结果，并且反序列化到结构化缓存中。这种方法虽然能够在缓存命中的时候提供快速的数据处理，存在内存空间不能充分利用和序列化反序列化开销较大的问题。其中内存不能充分利用主要体现在结构化缓存和键值数据库中的非结构化缓存在数据的内容上具有一致性，但是却以不同的形态存储了两份内容。序列化和反序列化的开销体现在在缓存不命中的情况下，每一次对于一个文件元数据中一个部分的修改或者读取，都需要对整个文件的元数据进行序列化和反序列化操作，这种方式导致数据的处理比较低下。

发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的一个目的在于提出一种元数据结构，实现元数据在内存与外存的统一表示，无需对元数据字段进行序列化和反序列化操作。

为了实现上述目的，本发明的实施例公开了一种元数据结构，包括：目录元数据结构，所述目录元数据包括：目录索引；多个目录元数据，其中，所有目录元数据的数据字段为定长字段；文件元数据结构，所述文件元数据结构包括：文件索引；多个文件元数据，其中，所有文件元数据的数据字段为定长字段。

进一步地，所述目录索引为目录的路径，所述目录元数据包括目录的访问权限标识、目录的用户标识、目录的用户组标识、目录的访问时间和目录的全局唯一标识。

进一步地，所述文件索引包括目录元数据的父目录的全局唯一标识和目录文件名，所述文件元数据包括访问时间、访问模式、用户标识、组标识、修改时间、文件的内容的访问时间、文件的大小、文件块的大小和文件元数据的全局唯一标识。

根据本发明实施例的元数据结构，实现元数据在内存与外存的统一表示，无需对元数据字段进行序列化和反序列化操作。

本发明的另一个目的在于提出一种对上述实施例的元数据结构的操作方法，包括：所述目录元数据结构在存储过程中，使用所述目录的路径作为键，多个目录元数据作为值；所述文件元数据结构在存储过程中，使用目录元数据的父目录的全局唯一标识和目录文件名作为键，使用所述多个文件元数据作为值。

进一步地，还包括：从内存写回外存时将元数据的内存字段直接拼接写入到键值数据库中；在从外存读取元数据到内存时从键值数据库中读出，在内存中直接填入元数据的内存结构表示。

根据本发明实施例的元数据结构的操作方法，实现了无序列化和反序列的高效键值存储。

本发明的另一个目的在于提出一种对上述实施例的元数据结构的定位方法，包括：根据文件元数据结构的大小和块大小确定文件内容存储的具体位置；根据外部输入的偏移量获取文件块的偏移；根据所述文件的全局唯一标识和所述文件块的偏移得到所述文件块在存储集群中的位置。

根据本发明实施例的元数据结构的定位方法，可以通过文件的大小和文件的块大小直接定位文件。

本发明的另一个目的在于提出一种对上述实施例的元数据结构的切分方法，包括：A1：将元数据操作分为访问控制型操作和文件定位型操作；A2：将元数据字段分为访问控制类型的元数据和描述文件空间分布的元数据字段，其中，所述访问控制类型的元数据包括所述访问时间、访问模式、用户标识和组标识，所述描述文件空间分布的元数据字段包括：修改时间、文件的内容的访问时间、文件的大小、文件块的大小和文件元数据的全局唯一标识；A3：将文件系统元数据操作分为需要访问所有的元数据操作、需要改变访问控制类型的操作和需要改变描述文件空间分布的元数据操作，其中，所述需要访问所有的元数据操作包括获取文件元数据操作、删除文件操作和重命名文件操作，所述需要改变访问控制类型的操作包括改变用户组操作、改变用户权限操作、创建文件操作和打开文件操作，所述需要改变描述文件空间分布的元数据操作包括读文件内容操作、写文件内容操作和改变文件大小操作；A4：基于A1-A3的分类，将元数据字段进行聚集，聚集访问控制类型的元数据字段为访问控制元数据块，聚集描述文件空间分布的元数据字段为文件空间描述元数据块。

进一步地，还包括：对所述需要改变访问控制类型的操作和所述需要改变描述文件空间分布的元数据操作时，每次的更改和读取将读取和修改的一种类型的元数据；当处理一个修改类型的元数据操作时，从键值系统中获得需要修改的元数据，替换数据后直接写入键值数据库。

根据本发明实施例的元数据结构的切分方法，对基本的元数据操作进行分类，将其按照所需要修改的元数据字段进行划分，减少的每次元数据操作所访问的字段的长度。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的目录元数据的结构图；

图2是本发明一个实施例的与访问控制相关的元数据的结构图；

图3是本发明一个实施例的与文件数据布局相关的元数据结构图；

图4是本发明一个实施例的文件操作与文件元数据的对应关系图；

图5是本发明一个实施例的总体结构图；。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

以下结合附图描述本发明。

根据本发明实施例的元数据结构，包括目录元数据结构和文件元数据结构。

其中，目录元数据包括目录索引和多个目录元数据，所有目录元数据的数据字段为定长字段。

图1是本发明一个实施例的目录元数据的结构图。如图1所示，在本发明的一个实施例中，目录索引为目录的路径PATH，目录元数据包括目录的访问权限标识MODE、目录的用户标识UID、目录的用户组标识GID、目录的访问时间CTIME。所列的元数据字段为定长字段，如果增加了其他字段，只要其增加的为定长字段，都在此方法的说明范围之内。目录元数据的存储以PATH为索引项，所有定长的元数据组合为一个新的定长字段，保证了目录元数据为定长数据。在此基础上，最为重要的特征是还具备目录的全局唯一标识DUUID。这是一个能够在全局唯一确定一个目录特征的定长字段。

在图1中，索引字段PATH为不定长的字符串，其长度根据路径的不同而有不同，其范围为1～255个字节，在实际的使用中，根据支持的语言的不同，长度还可以扩展到1024字节。其余的字段为8字节的定长字段，其中DUUID在这里设定为一个8字节字段，理论上而言，其能够支持足够多的目录，但是如果系统对唯一值的分配有更高的要求，则可以扩展到16字节，无论是哪一种扩展，都需要保证了目录元数据为定长数据。在这个实例中，其长度为40个字节。

管理目录元数据的服务器在创建目录的时候，会为每个目录分配一个全局唯一的DUUID，可以通过两种手段管理DUUID，一种是构建一个Bitmap表，每个bit记录一个目录的DUUID是否会被分配。但这种方式在每次分配的时候会带来额外的查询和管理开销，还有一种方法是将DUUID从0开始计数，这种方法的优势是每次从最大的值加1后作为目录的DUUID即可，但是当创建的目录数目大于8个字节所能表示的值的时候，这种方法则不可以使用。但是8个字节所能标识的数量级在当前的系统中是足够用的，所以并不会成为瓶颈。系统一旦为一个目录分配了一个DUUID后，对于这个目录而言，其整个生命周期内，这个DUUID是不变的，相当于这个目录的指纹，当目录被重命名，或者被移动到另外的路径之后，其DUUID是不变的。所以通过DUUID可以在全局唯一确定一个目录。

文件元数据结构包括文件索引和多个文件元数据，文件元数据的数据字段为定长字段。

图2是本发明一个实施例的与访问控制相关的元数据的结构图，图3是本发明一个实施例的与文件数据布局相关的元数据结构图。如图2和图3所示，在本发明的一个实施例中，文件索引包括目录元数据的父目录的全局唯一标识DUUID和目录文件名FNAME，以DUUID+FNAME构成文件的索引项，这是一个有8字节构成的字段和一个不定长的字符串的组合，由于DUUID是全局唯一的目录标识，所以不会存在两个目录共同使用一个目录标识，所以使用DUUID+文件名的方式就能在全局唯一确定一个文件。在传统方法中，确定一个文件的唯一性采用的是PATH+FNAME的方式，这种方式在本专利基于键值存储的模型中，会占用更多的存储空间，而且目录深度的不同也会造成键值长度的不同，而使用DUUID+FNAME的方法可以减少对于路径的存储。在这个实例中，DUUID+FNAME的长度不能超过255字节，在实际中，根据系统的不同，可以扩展这种存储。图1和图2的Value部分都为定长的字段，从而保证了文件元数据为定长的。文件元数据包括访问时间CTIME、访问模式MODE、用户标识UID、组标识GID、修改时间MTIME、文件的内容的访问时间ATIME、文件的大小SIZE、文件块的大小BSIZE和文件元数据的全局唯一标识FUUID。在元数据中，重要的特征是具有FUUID用于在全局能够惟一确定一个文件的标识，且为一个定长的字段。其余的各项字段也皆为定长字段，如果增加了更多的字段，只要为定长字段，都在此说明之内。这些定长字段组合为新的定长的字段，从而保证了文件元数据为定长的。

本发明的实施例还公开了一种元数据结构的操作方法，包括：目录元数据结构在存储过程中，使用目录的路径作为键，多个目录元数据作为值；文件元数据结构在存储过程中，使用目录元数据的父目录的全局唯一标识和目录文件名作为键，使用多个文件元数据作为值。

在本发明的一个实施例中，元数据结构的操作方法还包括：从内存写回外存时将元数据的内存字段直接拼接写入到键值数据库中；在从外存读取元数据到内存时从键值数据库中读出，在内存中直接填入元数据的内存结构表示。

具体地，图1、图2和图3的实例还描述了使用键值存储元数据的方法。在存储过程中，在存储过程中，对于目录的元数据，使用PATH作为键，其余的元数据作为值。对于文件元数据，使用DUUID+FNAME作为键，其余元数据作为值。显而易见的，使用PATH和DUUID+FNAME的机制能够保证文件系统的存储中不会出现相同文件或者目录具有不同的键。从而保证了逻辑上的唯一性。这种设计方法适用于将目录和文件的元数据分布在多个节点上的元数据布局。

这种定长的存储方法可以减少在存储过程中不必要的序列化开销。在元数据访问的实现过程中，使用一个元数据的结构体可以完整的描述图1，图2和图3所表示的Value值。由于是在内存中的结构体，对于任何一个Value，尽管有多个元数据项，但是其在内存的空间是连续的。基于这样的原理，可以直接将内存中的数据写入到键值存储中，在这种情况下，就不需要对数据进行拷贝，或者像很多序列化操作一样，需要提交额外的元数据来保证结构体各个字段的长度。在这种存储方式下，实际存储的Value长度是固定的。以实例为例，其目录元数据的长度为40Bytes，两种文件元数据的长度分别为32Bytes和40Bytes。键值存储在存储过程中通过直接获得指向这些区域的指针，就可以直接将这部分的数据存储到键值数据库中，避免了额外的内存开销。在读出这些数据时，由于存储的数据的长度和顺序是固定的，所以在实现过程中，直接将读出的数据放到定义好的元数据结构中，就可以供上层应用提取和使用。相对于传统的方法，这种方法没有了序列化和反序列化的开销，数据在内存中始终只存在一份，没有拷贝，降低了对于内存的使用，也能够利用键值存储的一致性保证数据的一致性和可用性，简化了数据处理的流程，提高了可靠性。

本发明的实施例还公开了一种元数据结构的定位方法，包括：根据文件元数据结构的大小和块大小确定文件内容存储的具体位置；根据外部输入的偏移量获取文件块的偏移；根据文件的全局唯一标识和文件块的偏移得到文件块在存储集群中的位置。

具体地，图3给出了一种基于在分布式环境下的二元定位元数据方法，对于传统的文件元数据存储而言，需要有一块区域标明各个文件块所在的位置。这一部分的元数据往往占用了较大的空间。由于在分布式系统中，文件块在各个节点是以文件的形式存储，所以对于分布式文件系统而言，只需要标明其文件块所在的节点，同时给文件块一个唯一的标识，使其能够在存储文件块的节点找到这个文件块。本实例提出的这种方法可以在仅仅使用三个字段，供24bytes的空间，就可以唯一确定一个文件的位置，并且能够保证其他元数据操作的高效执行。这种方法在每个文件创建的时候为为每个文件确定一个文件块大小BSIZE，这个大小决定了文件块的最小单位。如果文件本身的大小小于这个单位，则按照一个单位计算。对于文件的写入和读取，POSIX接口会提供写入文件的偏移OFFSET，写入的长度WSIZE这两个参数。对于一次写操作而言，客户端根据OFFSET/BSIZE可以确定写入的起始文件块，通过WSIZE可以计算出需要往后占用的文件块，由此可以确定一个需要写入的文件块的编号组(X₁,X₂,…,X_n)。这个时候，需要一个全局唯一的标识来在分布式存储中确定这些文件块。此方法使用FUUID这个文件的全局标识和文件块编号确定一个全局唯一的文件块，如对于第i块，其标识为FUUID+X_i。之后通过一种类型的哈希算法，确定这个文件块需要存储的具体节点N_i＝HASH(FUUID+X_i)。当需要读取这些文件块的时候，同样通过OFFSET和WSIZE计算出文件块的编号组，使用哈希算法查找到块所在的节点位置，从该节点读出文件块。需要明确的是，由于FUUID+X_i在全局是唯一的，所以在存储文件块的各个节点，依然用FUUID+X_i这个标识来在全局确定一个文件块。

本发明的实施例还公开了一种元数据结构的切分方法，包括：

A1：将元数据操作分为访问控制型操作和文件定位型操作。

A2：将元数据字段分为访问控制类型的元数据和描述文件空间分布的元数据字段。其中，访问控制类型的元数据包括访问时间、访问模式、用户标识和组标识，描述文件空间分布的元数据字段包括：修改时间、文件的内容的访问时间、文件的大小、文件块的大小和文件元数据的全局唯一标识。

A3：将文件系统元数据操作分为需要访问所有的元数据操作、需要改变访问控制类型的操作和需要改变描述文件空间分布的元数据操作。其中，需要访问所有的元数据操作包括获取文件元数据操作、删除文件操作和重命名文件操作，需要改变访问控制类型的操作包括改变用户组操作、改变用户权限操作、创建文件操作和打开文件操作，需要改变描述文件空间分布的元数据操作包括读文件内容操作、写文件内容操作和改变文件大小操作。

A4：基于A1-A3的分类，将元数据字段进行聚集，聚集访问控制类型的元数据字段为访问控制元数据块，聚集描述文件空间分布的元数据字段为文件空间描述元数据块。

在本发明的一个实施例中，元数据结构的切分方法还包括：对需要改变访问控制类型的操作和需要改变描述文件空间分布的元数据操作时，每次的更改和读取将读取和修改的一种类型的元数据；当处理一个修改类型的元数据操作时，从键值系统中获得需要修改的元数据，替换数据后直接写入键值数据库。

具体地，在图4中列出了主要的针对文件元数据操作，并标记出各种操作所管辖的元数据区域。从图3中可以归纳出三类操作，包括第一类操作，其需要访问所有的元数据，包括获取文件元数据操作(getattr)，删除文件操作(remove)和重命名文件操作(rename)。第二类操作，其需要改变访问控制类型的操作，包括改变用户组操作(chown)，改变用户权限操作(chmod)，创建文件操作(create)，打开文件操作(open)。第三类操作，其需要改变描述文件空间分布的元数据，包括读文件内容操作(read)，写文件内容操作(write)，改变文件大小操作(truncate)。

下面就从三种类型中各选出一个代表来描述这种存储方法。在第一类的存储方法中，选择getattr操作，当客户端执行这个操作时，文件元数据服务端接收到这个请求后，根据请求的文件路径，如图2和图3的键值数据库中分别根据请求的文件路径查找出需要读取的字段，返回客户端。在第二类的create方法中，当客户端创建一个文件的时候，文件服务器端产生一个文件元数据的数据结构，根据客户端请求给出的信息，填充MODE、UID和GID字段，根据服务器的时间填充CTIME字段。之后将这个数据写入键值数据库中。需要注意的是，在这个过程中另一个描述元数据分布的键值数据库并未写入任何数据。当客户端向刚才创建文件的写入信息的时候，出现了第三类方法write，当服务器端接受到给出的信息后，服务器端创建一个如图3所示的文件分布的元数据结构，填充各个字段，并为改文件分配一个全局唯一标识。之后将这段内容写入键值数据库。类似的，这三类方法都会根据各自访问的数据情况访问一个或者两个键值数据库。这样做的优势是在使用键值数据库直接存储元数据的时候，长长由于某些元数据操作仅仅修改一部分元数据而导致整个值需要重新修改，写入，造成了写放大。这种方法解决了这样的问题。

图5是本发明一个实施例的总体结构图，本领人员根据以上说明，可以将本发明中的元数据结构和基于其的操作方法、定位方法、切分方法有机的串联组合为一体。

另外，本发明实施例的元数据结构和基于其的操作方法、定位方法、切分方法的其它构成以及作用对于本领域的技术人员而言都是已知的，为了减少冗余，不做赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同限定。

Claims

1.一种元数据结构，其特征在于，包括：

目录索引；

多个目录元数据，其中，所有目录元数据的数据字段为定长字段；

文件元数据结构，所述文件元数据结构包括：

文件索引；

多个文件元数据，其中，所有文件元数据的数据字段为定长字段；

其中，所述目录索引为目录的路径，所述目录元数据包括目录的访问权限标识、目录的用户标识、目录的用户组标识、目录的访问时间和目录的全局唯一标识；所述文件索引包括目录元数据的父目录的全局唯一标识和目录文件名，所述文件元数据包括访问时间、访问模式、用户标识、组标识、修改时间、文件的内容的访问时间、文件的大小、文件块的大小和文件元数据的全局唯一标识；所述元数据结构的定位方法包括：根据文件元数据结构的大小和块大小确定文件内容存储的具体位置；根据外部输入的偏移量获取文件块的偏移；根据所述文件的全局唯一标识和所述文件块的偏移得到所述文件块在存储集群中的位置；

所述元数据结构的切分方法包括：A1：将元数据操作分为访问控制型操作和文件定位型操作；A2：将元数据字段分为访问控制类型的元数据和描述文件空间分布的元数据字段，其中，所述访问控制类型的元数据包括所述访问时间、访问模式、用户标识和组标识，所述描述文件空间分布的元数据字段包括：修改时间、文件的内容的访问时间、文件的大小、文件块的大小和文件元数据的全局唯一标识；A3：将文件系统元数据操作分为需要访问所有的元数据操作、需要改变访问控制类型的操作和需要改变描述文件空间分布的元数据操作，其中，所述需要访问所有的元数据操作包括获取文件元数据操作、删除文件操作和重命名文件操作，所述需要改变访问控制类型的操作包括改变用户组操作、改变用户权限操作、创建文件操作和打开文件操作，所述需要改变描述文件空间分布的元数据操作包括读文件内容操作、写文件内容操作和改变文件大小操作；A4：基于A1-A3的分类，将元数据字段进行聚集，聚集访问控制类型的元数据字段为访问控制元数据块，聚集描述文件空间分布的元数据字段为文件空间描述元数据块；对所述需要改变访问控制类型的操作和所述需要改变描述文件空间分布的元数据操作时，每次的更改和读取将读取和修改的一种类型的元数据；当处理一个修改类型的元数据操作时，从键值系统中获得需要修改的元数据，替换数据后直接写入键值数据库。

2.一种对权利要求1所述的元数据结构的操作方法，其特征在于，包括：

所述目录元数据结构在存储过程中，使用所述目录的路径作为键，多个目录元数据作为值；

所述文件元数据结构在存储过程中，使用目录元数据的父目录的全局唯一标识和目录文件名作为键，使用所述多个文件元数据作为值。

3.如权利要求2所述的方法，其特征在于，还包括：

从内存写回外存时将元数据的内存字段直接拼接写入到键值数据库中；

在从外存读取元数据到内存时从键值数据库中读出，在内存中直接填入元数据的内存结构表示。