CN104331518B

CN104331518B - 一种海量文件的存储方法和装置

Info

Publication number: CN104331518B
Application number: CN201410709125.1A
Authority: CN
Inventors: 杨勇; 辛国茂; 赵仁明; 亓开元
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2014-11-27
Filing date: 2014-11-27
Publication date: 2017-12-29
Anticipated expiration: 2034-11-27
Also published as: CN104331518A

Abstract

本发明实施例提供的一种海量文件的存储方法和装置，可以解决在.NET平台架构下利用HDFS存储数据时系统运行效率低以及部署成本高的问题。具体方案为：在.NET平台架构下通过IKVM.NET调用HDFS存储待存储文件中的数据；当所述待存储文件中的数据存储成功后，使用根据关系数据库创建的文件索引表存储所述待存储文件的索引信息。

Description

一种海量文件的存储方法和装置

技术领域

本发明涉及数据处理领域，具体涉及一种海量文件的存储方法和装置。

背景技术

随着信息技术的高速发展，据权威市场调查机构互联网数据中心预测，未来每隔18个月，整个世界的数据总量就会翻倍，到2020年，整个世界的数据总量将会增长44倍，达到35.2ZB(1ZB＝10亿TB)，随之而来的是海量信息存储的需求不断增加。

目前大数据技术是通信网络行业的热门话题，由于数据量的爆炸式增长，许多已经上线的软件应用都有对接大数据平台、或将业务迁移到大数据平台上的迫切需求；目前应用较广的大数据平台海杜普(英文：Hadoop)是一个由Apache基金会所开发的分布式系统基础架构，Hadoop是基于JAVA语言(1995年SUN公司推出的编程语言)实现的一套大数据解决方案。其中，海杜普分布式文件系统(英文：Hadoop Distributed File System，简称HDFS)是适合运行在通用硬件上的分布式文件系统，它和现有的分布式文件系统有很多共同点，但同时，它和其他的分布式文件系统的区别也是有很明显的区别，HDFS是一个高度容错性的系统，适合部署在廉价的机器上，HDFS能提供高吞吐量的数据访问，非常适合在大规模数据集上应用。

虽然Hadoop平台的某些组件也提供其他语言的接口方式，但大都需要搭建额外的网络服务器(英文：WebService)做中转或者使用thrift方式完成调用，其中，WebService是一种跨编程语言和跨操作系统平台的远程调用技术；thrift是由脸书公司开发的一个软件框架，用来进行可扩展且跨语言的服务的开发；尤其对于HDFS，在.NET平台架构(.NET是微软公司开发的一个网络服务平台架构)下并没有官方的应用程序编程接口(英文：Application Programming Interface，简称：API)支持，现有的技术方案是采用WebService方式和thrift方式调用HDFS来存储海量数据，但是，现有的采用WebService方式和thrift方式的方案存在系统运行效率低、部署成本高的问题。

发明内容

本发明实施例提供一种海量文件的存储方法和装置，可以解决在.NET平台架构下利用HDFS存储数据时系统运行效率低以及部署成本高的问题。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明实施例提供一种海量文件的存储方法，所述方法包括：

在.NET平台架构下通过JAVA虚拟机IKVM.NET调用海杜普分布式文件系统HDFS存储待存储文件中的数据；

当所述待存储文件中的数据存储成功后，使用根据关系数据库创建的文件索引表存储所述待存储文件的索引信息。

结合第一方面，在第一种可能的实现方式中，所述在.NET平台架构下通过JAVA虚拟机IKVM.NET调用海杜普分布式文件系统HDFS存储待存储文件中的数据包括：

将使用JAVA语言编写的用于调用所述HDFS存储数据的程序通过所述IKVM.NET转换为所述.NET平台架构下对应的程序，执行所述对应的程序以在所述.NET平台架构下调用所述HDFS存储所述待存储文件中的数据。

结合第一方面，在第二种可能的实现方式中，所述待存储文件的索引信息包括以下中的至少一种：所述待存储文件的文件名、所述待存储文件的文件大小、所述待存储文件的生成时间。

结合第一方面至第一方面的第二种可能的实现方式中任一可能的实现方式，在第三种可能的实现方式中，所述方法还包括：

定时检查所述文件索引表中存储的索引信息与所述HDFS中存储的数据的对应关系，若检查到有匹配不上所述HDFS中存储的数据的无效索引信息，则将所述无效索引信息移到预设的错误记录表中。

结合第一方面至第一方面的第二种可能的实现方式中任一可能的实现方式，在第四种可能的实现方式中，所述方法还包括：

当对所述HDFS中存储的数据进行操作时，根据所述操作的结果对所述文件索引表中所述数据对应的索引信息进行更新。

第二方面，本发明实施例提供一种海量文件的存储装置，所述装置包括：

第一存储单元，用于在.NET平台架构下通过JAVA虚拟机IKVM.NET调用海杜普分布式文件系统HDFS存储待存储文件中的数据；

第二存储单元，用于当所述待存储文件中的数据存储成功后，使用根据关系数据库创建的文件索引表存储所述待存储文件的索引信息。

结合第二方面，在第一种可能的实现方式中，所述第一存储单元具体用于：

结合第二方面，在第二种可能的实现方式中，所述待存储文件的索引信息包括以下中的至少一种：所述待存储文件的文件名、所述待存储文件的文件大小、所述待存储文件的生成时间。

结合第二方面至第二方面的第二种可能的实现方式中任一可能的实现方式，在第三种可能的实现方式中，所述装置还包括：

检查单元，用于定时检查所述文件索引表中存储的索引信息与所述HDFS中存储的数据的对应关系，若检查到有匹配不上所述HDFS中存储的数据的无效索引信息，则将所述无效索引信息移到预设的错误记录表中。

结合第二方面至第二方面的第二种可能的实现方式中任一可能的实现方式，在第四种可能的实现方式中，所述装置还包括：

更新单元，用于当对所述HDFS中存储的数据进行操作时，根据所述操作的结果对所述文件索引表中所述数据对应的索引信息进行更新。

本发明实施例提供的海量文件的存储方法和装置，在.NET平台架构下通过JAVA虚拟机IKVM.NET调用海杜普分布式文件系统HDFS存储待存储文件中的数据；当所述待存储文件中的数据存储成功后，使用根据关系数据库创建的文件索引表存储所述待存储文件的索引信息。本发明可以解决在.NET平台架构下利用HDFS存储数据时系统运行效率低以及部署成本高的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的本发明的实施例的架构示意图；

图2为本发明实施例提供的一种海量文件的存储方法的流程示意图一；

图3为本发明实施例提供的一种海量文件的存储方法的流程示意图二；

图4为本发明实施例提供的一种海量文件的存储装置的结构示意图一；

图5为本发明实施例提供的一种海量文件的存储装置的结构示意图二；

图6为基于本发明实施例提供的一种海量文件的存储装置存储海量文件的实施示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1所示为本发明的实施例的架构示意图，本发明涉及关系数据库，关系数据库是建立在关系数据库模型基础上的数据库，借助于集合代数等概念和方法来处理数据库中的数据。目前主流的关系数据库有Oracle(甲骨文公司推出的关系数据库管理系统)、DB2(国际商业机器公司推出的关系型数据库管理系统)、MySQL(甲骨文公司推出的关系数据库管理系统)等。示例性的，图1中以Oracle系统为例。

本发明还涉及IKVM.NET，IKVM.NET是开源的基于.NET平台架构下公共语言运行时(英文：common language runtime，简称：CLR)的JAVA虚拟机，可以通过IKVM.NET这个中介让JAVA程序和.NET平台的应用程序一起协同工作。简单介绍IKVM.NET的作用原理：IKVM.NET的工具先将class文件(JAVA程序编译后得到的)、JAR文件(Java归档文件)编译为.NET平台的通用中间语言(英文：Common Intermediate Language，简称：CIL)程序集，然后在.NET平台上运行这些CIL程序集，这样可以在基于.NET平台开发时直接使用JAVA的API。

本发明提供的技术方案中将关系型数据库和HDFS的特点进行了结合，采用IKVM.NET做中介，使现有的基于.NET平台架构下CLR的系统不需要过多改造，即可对接基于JAVA的Hadoop平台，并可编写程序调用HDFS，实现文件索引信息和文件的数据实体的分别存储，充分利用关系型数据库和HDFS的优点，在.NET平台架构上实现海量文件的存储的同时降低部署成本，提高系统的运行效率。

本发明实施例提供一种海量文件的存储方法，如图2所示，该方法包括：

S101、在.NET平台架构下通过IKVM.NET调用HDFS存储待存储文件中的数据。

S102、当待存储文件中的数据存储成功后，使用根据关系数据库创建的文件索引表存储该待存储文件的索引信息。

本发明实施例提供的海量文件的存储方法，在.NET平台架构下通过JAVA虚拟机IKVM.NET调用海杜普分布式文件系统HDFS存储待存储文件中的数据；当所述待存储文件中的数据存储成功后，使用根据关系数据库创建的文件索引表存储所述待存储文件的索引信息。本发明可以解决在.NET平台架构下利用HDFS存储数据时系统运行效率低以及部署成本高的问题。为了使本领域技术人员能够更清楚地理解本发明实施例提供的技术方案，下面通过具体的实施例，对本发明的实施例提供的海量文件的存储方法进行详细说明，如图3所示，该方法包括：

S201、在.NET平台架构下通过IKVM.NET调用HDFS存储待存储文件中的数据。

具体的，将使用JAVA语言编写的用于调用HDFS存储数据的程序通过IKVM.NET转换为.NET平台架构下对应的程序，执行该对应的程序以在.NET平台架构下调用HDFS存储所述待存储文件中的数据。

示例性的，使用JAVA语言编写调用HDFS的程序；将该程序打包为一个JAR文件；安装并配置IKVM.NET；将该程序的JAR文件和该程序依赖的其他JAR文件复制到同一文件目录下；使用IKVM.NET的CMD命令将该程序的JAR包转化为.NET平台架构上可用的“应用程序拓展(英文缩写：DLL)文件，其中，CMD命令可以使用SharedClassLoader命令以保证该程序依赖的所有JAR文件都可以被添加；最后执行OUT命令是生成该程序对应的DLL文件。

另外，对于HDFS存储待存储文件中的数据的过程，本领域技术人员可以参照现有的技术方案中HDFS存储数据的过程，在此不做赘述。

S202、当待存储文件中的数据存储成功后，使用根据关系数据库创建的文件索引表存储待存储文件的索引信息。

其中，待存储文件的索引信息包括以下中的至少一种：待存储文件的文件名、待存储文件的文件大小、待存储文件的生成时间。

具体的，将待存储的文件中的数据向HDFS上传后，判断上传是否成功，当判断上传HDFS成功则使用根据关系数据库创建的文件索引表存储待存储文件的索引信息后执行S203；当判断上传HDFS失败，则向系统通知该待存储文件的数据上传错误，系统可以通知删除上传的不完整的数据后重新向HDFS上传数据。

S203、当待存储文件的索引信息存储成功后，则确定完成待存储文件的存储。

具体的，将待存储的文件中的索引信息向关系数据库上传后，判断上传是否成功，当判断上传关系数据库成功则确定待存储的文件存储完成；当判断上传关系数据库失败，则向系统通知索引信息上传错误，系统可以通知删除HDFS上已上传的对应的数据再次向HDFS上传。

S204、定时检查文件索引表中存储的索引信息与HDFS中存储的数据的对应关系，若检查到有匹配不上HDFS中存储的数据的无效索引信息，则将无效索引信息移到预设的错误记录表中。

需要说明的是，通过执行S204可以有效保证文件的索引信息和数据的一致性。

S205、当对HDFS中存储的数据进行操作时，根据操作的结果对文件索引表中数据对应的索引信息进行更新。

示例性的，当对HDFS中存储的数据移动或删除时，相应的，对关系数据库中被移动或被删除的数据对应的索引信息进行更新。

本发明实施例提供的海量文件的存储方法，在.NET平台架构下通过JAVA虚拟机IKVM.NET调用海杜普分布式文件系统HDFS存储待存储文件中的数据；当所述待存储文件中的数据存储成功后，使用根据关系数据库创建的文件索引表存储所述待存储文件的索引信息。本发明可以解决在.NET平台架构下利用HDFS存储数据时系统运行效率低以及部署成本高的问题。

本发明实施例提供一种海量文件的存储装置10，如图4所示，该装置10包括：

第一存储单元11，用于在.NET平台架构下通过IKVM.NET调用HDFS存储待存储文件中的数据；

第二存储单元12，用于当待存储文件中的数据存储成功后，使用根据关系数据库创建的文件索引表存储该待存储文件的索引信息。

可选的，第一存储单元11具体用于：

将使用JAVA语言编写的用于调用HDFS存储数据的程序通过IKVM.NET转换为.NET平台架构下对应的程序，执行该对应的程序以在.NET平台架构下调用HDFS存储该待存储文件中的数据。

可选的，待存储文件的索引信息包括以下中的至少一种：待存储文件的文件名、待存储文件的文件大小、待存储文件的生成时间。

可选的，如图5所示，该装置10还包括：

检查单元13，用于定时检查文件索引表中存储的索引信息与HDFS中存储的数据的对应关系，若检查到有匹配不上HDFS中存储的数据的无效索引信息，则将无效索引信息移到预设的错误记录表中。

更新单元14，用于当对HDFS中存储的数据进行操作时，根据操作的结果对文件索引表中数据对应的索引信息进行更新。

图6为基于本实施例提供的装置在存储海量文件时的实施示意图。

本实施例用于实现上述各方法实施例，本实施例中各个单元的工作流程和工作原理参见上述各方法实施例中的描述，在此不再赘述。

本发明实施例提供的海量文件的存储装置，在.NET平台架构下通过JAVA虚拟机IKVM.NET调用海杜普分布式文件系统HDFS存储待存储文件中的数据；当所述待存储文件中的数据存储成功后，使用根据关系数据库创建的文件索引表存储所述待存储文件的索引信息。本发明可以解决在.NET平台架构下利用HDFS存储数据时系统运行效率低以及部署成本高的问题。以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另一点，所显示或讨论的模块相互之间的连接可以是通过一些接口，可以是电性，机械或其它的形式。所述各个模块可以是或者也可以不是物理上分开的，可以是或者也可以不是物理单元。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理包括，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述以软件功能单元的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文:Read-Only Memory，简称ROM)、随机存取存储器(英文：Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种海量文件的存储方法，其特征在于，包括：

当所述待存储文件中的数据存储成功后，使用根据关系数据库创建的文件索引表存储所述待存储文件的索引信息；

其中，所述在.NET平台架构下通过JAVA虚拟机IKVM.NET调用海杜普分布式文件系统HDFS存储待存储文件中的数据包括：

将使用JAVA语言编写的用于调用所述HDFS存储数据的程序通过所述IKVM.NET转换为所述.NET平台架构下对应的程序，执行所述对应的程序以在所述.NET平台架构下调用所述HDFS存储所述待存储文件中的数据；

其中，所述将使用JAVA语言编写的用于调用所述HDFS存储数据的程序通过所述IKVM.NET转换为所述.NET平台架构下对应的程序，包括采用IKVM.NET的工具先将JAVA程序编译后得到的class文件、JAR文件编译为.NET平台的通用中间语言CIL程序集，在.NET平台上运行所述CIL程序集，从而在基于.NET平台开发时直接使用JAVA的API。

2.根据权利要求1所述的方法，其特征在于，所述待存储文件的索引信息包括以下中的至少一种：所述待存储文件的文件名、所述待存储文件的文件大小、所述待存储文件的生成时间。

3.根据权利要求1至2任一项所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1至2任一项所述的方法，其特征在于，所述方法还包括：

5.一种海量文件的存储装置，其特征在于，包括：

第二存储单元，用于当所述待存储文件中的数据存储成功后，使用根据关系数据库创建的文件索引表存储所述待存储文件的索引信息；

其中，所述第一存储单元具体用于：

6.根据权利要求5所述的装置，其特征在于，所述待存储文件的索引信息包括以下中的至少一种：所述待存储文件的文件名、所述待存储文件的文件大小、所述待存储文件的生成时间。

7.根据权利要求5至6任一项所述的装置，其特征在于，所述装置还包括：

8.根据权利要求5至6任一项所述的装置，其特征在于，所述装置还包括：