CN112905557B

CN112905557B - 支持异步提交的海量文件整合存储方法及系统

Info

Publication number: CN112905557B
Application number: CN202110233937.3A
Authority: CN
Inventors: 郝振石; 杨朝敬; 马宁
Original assignee: Shandong Zhaowu Network Technology Co ltd
Current assignee: Shandong Zhaowu Network Technology Co ltd
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2023-01-24
Anticipated expiration: 2041-03-03
Also published as: CN112905557A

Abstract

本发明涉及网络文件存储技术领域，具体涉及一种支持异步提交的海量文件整合存储方法及系统。该支持异步提交的海量文件整合存储方法包括以下步骤：S1：文件接收；S2：文件存储；S3：文件读取；S4：文件删除；S5：文件清理，提供一种避免同步提交数据延时入库，存储空间利用率高，文件访问删除效率高的支持异步提交的海量文件整合存储方法及系统。

Description

支持异步提交的海量文件整合存储方法及系统

技术领域

本发明涉及网络文件存储技术领域，具体涉及一种支持异步提交的海量文件整合存储方法及系统。

背景技术

目前,常用的业务系统采用同步方式提交文件到文件存储系统，返回分配的文件ID信息填写到数据记录上,再进行数据记录的提交，采用同步文件提交方式，并发提交文件存储效率不高，而且造成数据提交延时，无法做到实时检索的目的。

有的文件存储系统没有对小文件进行整合存储，海量小文件分散存储，造成磁盘空间浪费严重、磁盘IO高，会超过操作系统文件句柄数最大限制。

而有的文件存储系统对小文件进行了整合存储，但大文件也采用了相同的策略，造成了在文件访问、删除时效率不高。

发明内容

本发明要解决的技术问题是：克服现有技术的不足，提供一种避免同步提交数据延时入库，存储空间利用率高，文件访问删除效率高的支持异步提交的海量文件整合存储方法及系统。

本发明为解决其技术问题所采用的技术方案为：支持异步提交的海量文件整合存储方法，通过集群访问管理节点左右统一的对外接口，文件存储节点通过集群访问管理节点接收、写入、删除、读取及清理文件，包括以下步骤：

S1：文件接收：集群访问管理节点接收业务系统提交的文件，根据提交模式进行相应处理，分配对应的文件存储节点，并将分配的有关存储信息返回至业务系统；

S2：文件存储：判断要存储的文件是大文件还是小文件，计算相应存储路径，进行文件存储；

S3：文件读取：接收读取文件请求信息，找到对应的文件存储节点，读取相应文件；

S4：文件删除：接收删除文件请求，找对对应的文件存储节点，根据删除文件的类型进行相应删除清理处理；

S5：文件清理：对存储文件进行定期清理，腾出存储空间。

业务系统判断根据用户配置模式，判断文件为同步提交模式还是异步提交模式，若为同步提交模式则业务系统直接提交文件至集群访问管理节点，否则业务系统计算文件md5值、大小等生成文件ID信息串，具体包括md5值、文件大小、文件类型、时间、用户等，然后提交文件至集群访问管理节点。步骤S1包括以下子步骤：

S1-1：同步提交模式下，文件接收代理模块接收上传的文件，计算文件md5值、大小等生成文件ID信息串，具体包括md5值、文件大小、文件类型、时间、用户等；

文件存储节点路由模块根据文件ID信息串进行文件存储节点地址分配，提交文件到文件存储节点，然后返回文件ID信息串及文件存储节点信息至业务系统，业务系统接收信息填写文件ID信息串、文件存储节点信息到数据记录进行入库。

S1-2：异步提交模式下，文件接收代理模块接收上传的文件及文件ID信息串等信息；

文件存储节点路由模块根据文件ID信息串进行分配文件存储节点，由另外线程进行异步提交文件到文件存储节点，然后返回文件ID信息串及文件存储节点信息至业务系统，业务系统接收信息填写文件ID信息串、文件存储节点信息到数据记录进行入库。

步骤S2包括以下子步骤：

S2-1：文件接收模块接收文件及ID信息串，如md5值、文件大小、类型、用户、提交时间等；

S2-2：文件写入模块判断文件为大文件还是小文件，若为大文件则采用独立文件存储，根据文件ID信息串生成存储路径，若为小文件则采用整合文件存储；

S2-3：判断是否需要压缩存储文件，若是则进行文件压缩，然后进入步骤S2-4，否则直接进入步骤S2-4；

S2-4：判断是否需要加密存储文件，若是则进行文件加密后进入步骤S2-5，否则直接进入步骤S-5；

S2-5：进行文件存储，针对大文件在文件内容前16字节文件头进行标记是否压缩、是否加密等，否则前16字节置0占位，针对小文件进行实际存储大小计算，然后进行文件路径索引信息入库操作。文件存储节点存储完毕后，返回文件ID信息串至集群访问管理节点。

步骤S2-2中，大文件的存储路径结构为：用户名/largefile/文件分类/时间/md5第1字节字符串/md5第2节点字符串/md5值字符串+文件类型，其中时间可以按照需要选择年月日、年月、年等格式配置，代表为相应时间内文件去重只存储一份。

步骤S2-2中，小文件采用的整合文件存储具体为：

文件路径索引信息存储在小文件信息数据库中，文件路径索引信息结构为：时间、用户、文件类型、文件md5值、整合文件路径、整合文件中的偏移、原始文件大小、实际存储大小、是否压缩、是否加密等；

小文件信息数据库存储策略为取md5值第一字节字符串作为库名，范围从00-FF最大为256个库，取md5值第二字节字符串作为表名，范围从00-FF最大为256个表；文件内容采用文件整合存储，存储路径结构为：用户名/smallfile/文件分类/时间/序列号文件.dat；

整合文件大小小于等于4G，若整合文件超过4G，则创建新的序列号整合文件，在相同目录下生成序列号对应的log日志文件与小文件信息数据库记录相对应，可用于小文件信息数据库恢复日志使用。

步骤S3包括以下子步骤：

S3-1：业务系统通过文件访问代理模块请求访问文件，接收请求访问信息；

S3-2：文件存储节点路由模块按照文件ID信息串、文件存储节点信息查找到具体文件存储节点，并转发访问请求到对应文件存储节点；

S3-3：文件读取模块解析文件ID信息串,判断读取的文件是大文件还是小文件，如果为大文件则根据文件ID信息串，定位文件存储路径信息，若为小文件，则进行小文件信息数据库检索路径相关信息，定位文件路径等相关信息；

S3-4：判断是否为压缩文件，若是，则进行文件解压，然后进入步骤S3-5，否则直接进入步骤S3-5；

S3-5：判断是否为加密文件，若是则进行文件解密，然后进入步骤S3-6，否则直接进入步骤S3-6；

S3-6：返回相应文件内容给集群管理节点，由集群管理节点返回给业务系统。

步骤S4包括以下子步骤：

S4-1：业务系统通过文件删除代理模块请求删除文件；

S4-2：文件存储节点路由模块按照文件ID信息串、文件存储节点信息查找到具体文件存储节点，并转发删除请求到对应文件存储节点；

S4-3：对应文件存储节点的文件删除模块解析删除请求的文件ID信息串，判断删除的文件是大文件还是小文件，若为大文件则根据文件ID信息串，定位文件存储路径进行文件物理删除，否则为小文件，先进行小文件信息数据库检索路径相关信息，把相关文件标记为删除状态,并不进行物理删除，由文件清理模块定期进行文件清理。相应的文件删除信息返回至集群管理节点。

步骤S5包括以下子步骤：

S5-1：文件清理模块开启定时清理线程，按照设定的时间存储周期进行文件清理工作；

S5-2：遍历存储文件目录，判断存储文件是否在存储时间周期范围内，若是进入步骤S5-3，否则按照存储时间周期范围进行文件删除，然后进入步骤S5-3；

S5-3：遍历小文件信息数据库，判断删除标记率是否达到设定阈值，若是则在空闲时段进行文件清理重构工作，重构后相应的小文件信息数据库进行记录删除，整合文件进行收缩重构，腾出存储空间。

步骤S5-3中，所述阈值设定为30％。若删除标记文件达到小文件信息数据库内所有文件的30％，则在空闲时段进行文件清理重构工作。

一种支持异步提交的海量文件整合存储系统，包括集群访问管理节点及集群访问管理节点连接的若干文件存储节点，所述集群访问管理节点连接若干业务系统；

所述集群访问管理节点负责对整个文件存储集群的管理、状态监控、文件的统一对外接口调用、文件存储节点的路径分配与路由等功能，包括集群管理模块、文件接收代理模块、文件访问代理模块、文件删除代理模块、文件存储节点路由模块；

所述文件存储节点负责文件的存储、提供文件存储对接口调用、节点管理、状态监控等功能，包括节点管理模块、文件接收模块、文件写入模块、文件删除模块、文件读取模块、文件清理模块。

与现有技术相比，本发明具有以下有益效果：

本发明提供一种支持异步提交的海量文件整合存储方法及系统，解决同步提交数据延时入库，海量小文件分散存储句柄数限制，存储空间利用率低，文件访问删除效率不高的问题。

附图说明

图1是本发明总体框架示意图。

图2是本发明集群管理节点框架图。

图3是本发明文件存储节点框架图。

图4是本发明文件接收流程图。

图5是本发明文件存储流程图。

图6是本发明文件读取流程图。

图7是本发明文件删除流程图。

图8是本发明文件清理流程图。

具体实施方式

下面结合附图对本发明实施例做进一步描述：

实施例

如图1至图8所示，通过集群访问管理节点左右统一的对外接口，文件存储节点通过集群访问管理节点接收、写入、删除、读取及清理文件，包括以下步骤：

S5：文件清理：对存储文件进行定期清理，腾出存储空间。

步骤S2包括以下子步骤：

步骤S2-2中，小文件采用的整合文件存储具体为：

步骤S3包括以下子步骤：

步骤S4包括以下子步骤：

S4-1：业务系统通过文件删除代理模块请求删除文件；

步骤S5包括以下子步骤：

实施例2

本发明系统包括集群访问管理节点和文件存储节点，支持文件存储节点弹性扩展，业务系统通过集群访问管理节点提供的统一对外接口进行文件的提交、访问、删除等操作。

集群管理节点为各个业务系统分配用户，业务系统按照分配的用户，通过集群管理节点统一对外的接口，进行文件的提交，可以选择是异步提交模式或同步提交模式，选择是否采用压缩存储、加密存储等模式；按照文件相关信息进行路径分配到文件存储节点，转发文件至相应文件存储节点进行存储；由文件存储节点对大、小文件按照不同存储策略分别进行整合存储，提供检索访问等功能。

Claims

1.一种支持异步提交的海量文件整合存储方法，其特征在于，支持异步提交的海量文件整合存储系统，包括集群访问管理节点及集群访问管理节点连接的若干文件存储节点，所述集群访问管理节点连接若干业务系统；

所述集群访问管理节点包括集群管理模块、文件接收代理模块、文件访问代理模块、文件删除代理模块、文件存储节点路由模块；

所述文件存储节点包括节点管理模块、文件接收模块、文件写入模块、文件删除模块、文件读取模块、文件清理模块；

通过集群访问管理节点统一的对外接口，文件存储节点通过集群访问管理节点接收、写入、删除、读取及清理文件，支持异步提交的海量文件整合存储方法包括以下步骤：

S1：文件接收：集群访问管理节点接收业务系统提交的文件，根据提交模式进行相应处理，分配对应的文件存储节点，并将分配的有关存储信息返回至业务系统；步骤S1包括以下子步骤：

S1-1：同步提交模式下，文件接收代理模块接收上传的文件，计算文件md5值、大小生成文件ID信息串；

文件存储节点路由模块根据文件ID信息串进行文件存储节点地址分配，提交文件到文件存储节点，然后返回文件ID信息串及文件存储节点信息至业务系统；

S1-2：异步提交模式下，文件接收代理模块接收上传的文件及文件ID信息串信息；

文件存储节点路由模块分配文件存储节点，由另外线程进行异步提交文件到文件存储节点，然后返回文件ID信息串及文件存储节点信息至业务系统；

S2：文件存储：判断要存储的文件是大文件还是小文件，计算相应存储路径，进行文件存储；步骤S2包括以下子步骤：

S2-1：文件接收模块接收文件及ID信息串；

S2-4：判断是否需要加密存储文件，若是则进行文件加密后进入步骤S2-5，否则直接进入步骤S2-5；

S2-5：进行文件存储；

S3：文件读取：接收请求访问信息，找到对应的文件存储节点，读取相应文件；步骤S3包括以下子步骤：

S3-1：接收请求访问信息；

S3-2：文件存储节点路由模块按照文件ID信息串、文件存储节点信息查找到具体文件存储节点，并转发请求访问信息到对应文件存储节点；

S3-3：文件读取模块解析文件ID信息串,判断读取的文件是大文件还是小文件，如果为大文件则根据文件ID信息串，定位文件存储路径信息，若为小文件，则从小文件信息数据库检索路径相关信息，定位文件路径相关信息；

S3-6：返回相应文件内容给集群访问管理节点，由集群访问管理节点返回给业务系统；

S4：文件删除：接收删除文件请求，找到对应的文件存储节点，根据删除文件的类型进行相应删除清理处理；步骤S4包括以下子步骤：

S4-1：业务系统通过文件删除代理模块请求删除文件；

S4-3：对应文件存储节点的文件删除模块解析删除请求的文件ID信息串，判断删除的文件是大文件还是小文件，若为大文件则根据文件ID信息串，定位文件存储路径进行文件物理删除，否则为小文件，先从小文件信息数据库中检索路径相关信息，把相关文件标记为删除状态，由文件清理模块定期进行文件清理；

S5：文件清理：对存储文件进行定期清理，腾出存储空间；步骤S5包括以下子步骤：

2.根据权利要求1所述的支持异步提交的海量文件整合存储方法，其特征在于，步骤S2-2中，大文件的存储路径结构为：用户名/largefile/文件分类/时间/md5第1字节字符串/md5第2节点字符串/md5值字符串+文件类型。

3.根据权利要求2所述的支持异步提交的海量文件整合存储方法，其特征在于，步骤S2-2中，小文件采用的整合文件存储具体为：

文件路径索引信息存储在小文件信息数据库中，文件路径索引信息结构为：时间、用户、文件类型、文件md5值、整合文件路径、整合文件中的偏移、原始文件大小、实际存储大小、是否压缩、是否加密；

整合文件大小小于等于4G，若整合文件超过4G，则创建新的序列号整合文件，在相同目录下生成序列号对应的log日志文件与小文件信息数据库记录相对应。

4.根据权利要求1所述的支持异步提交的海量文件整合存储方法，其特征在于，

步骤S5-3中，所述阈值设定为30％。