CN113780450B - 基于自编码神经网络的分布式存储方法及系统 - Google Patents
基于自编码神经网络的分布式存储方法及系统 Download PDFInfo
- Publication number
- CN113780450B CN113780450B CN202111088135.4A CN202111088135A CN113780450B CN 113780450 B CN113780450 B CN 113780450B CN 202111088135 A CN202111088135 A CN 202111088135A CN 113780450 B CN113780450 B CN 113780450B
- Authority
- CN
- China
- Prior art keywords
- data
- error
- reasoning
- network
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 20
- 230000006835 compression Effects 0.000 claims abstract description 49
- 238000007906 compression Methods 0.000 claims abstract description 49
- 238000013507 mapping Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000006870 function Effects 0.000 claims description 11
- 230000005856 abnormality Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 5
- 238000000926 separation method Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术领域,具体涉及一种基于自编码神经网络的分布式存储方法及系统,该方法包括以下步骤:将训练数据输入压缩网络进行推理得到推理数据,根据训练数据与推理数据的差值得到第一误差;构建推理数据与其对应第一误差的映射关系;其中,压缩网络的输出不小于输入;获取需要存储的目标数据,根据映射关系获得目标数据对应的第一误差,根据目标数据与第一误差的差值得到控制数据;将控制数据输入压缩网络得到最短隐层;将最短隐层数据作为表示数据,对表示数据进行拆分组合得到各服务器的存储数据。本发明通过结合深度学习神经网络中的自编码技术来让分布式存储技术更加高效、安全。
Description
技术领域
本发明涉及人工智能领域,具体涉及一种基于自编码神经网络的分布式存储方法及系统。
背景技术
数据进行分布式存储时,往往是把数据信息分散存在不同的设备上,为了提高分布式系统的容错性,即单一设备或者少数设备出现故障时,分布式存储系统仍能正常运行,设备的故障问题不影响存储的数据,往往需要对数据进行多个备份,但是这样在增加系统容错性的同时,无疑也牺牲了大量的存储空间来存储重复的数据,对数据进行降维压缩,可以很好的节省存储资源。
使用网络进行数据降维,最常用的是自编码网络,不需要繁琐的训练标签,且网络结构简单,训练容易。但是自编码网络在数据恢复方面是存在重构误差的,即自编码网络只能实现有损压缩和重构。
目前对待存储数据的常用处理方式是:以该数据为网络输入数据,进行数据的推理,以降维推理结果(隐码Z)作为存储数据。数据恢复时,再对降维数据进行重构推理,得到推理数据进行使用。但是,显然由于网络的误差,恢复的数据很大程度上已经不是原数据。这种处理方式,只是存储了对应的重构误差数据而已,无法准确恢复原数据。
发明内容
为了解决上述技术问题,本发明提供一种基于自编码神经网络的分布式存储方法,该方法包括以下步骤:
将训练数据输入压缩网络进行推理输出推理数据,所述压缩网络的输出不小于输入;根据训练数据与推理数据的差值得到第一误差;构建推理数据与其对应第一误差的映射关系;
获取待存储的目标数据,根据映射关系获得目标数据对应的第一误差,根据目标数据与第一误差的差值得到控制数据;
将控制数据输入压缩网络得到最短隐层;将最短隐层数据作为表示数据,对表示数据进行拆分组合得到要存储到各服务器的数据。
优选地,所述根据映射关系获得目标数据对应的第一误差包括:
映射关系为查找表,根据训练数据对应的推理数据和第一误差构建查找表,查找表中的推理数据为真实数据点;若待存储的目标数据在查找表中,则获取对应的第一误差,否则,获取查找表中与目标数据最接近的两个真实数据点,根据两个真实数据点对应的第一误差推测目标数据对应的第一误差。
优选地,所述方法还包括:
若待存储的目标数据不在查找表中,则将目标数据与第一误差的差值作为映射数据;
对映射数据进行迭代推理得到控制数据,所述迭代推理包括:将映射数据输入压缩网络进行推理得到实际推理数据,根据目标数据与实际推理数据的差值得到第二误差;若第二误差为零,则迭代停止,映射数据为控制数据,否则根据第二误差调整映射数据并对调整后的映射数据进行迭代推理。
优选地,所述根据第二误差调整映射数据包括:
根据推理数据与其对应的训练数据进行曲线拟合到第一曲线;根据实际推理数据及其对应的第二误差对第一曲线进行调整,获取第一曲线上与实际推理数据最近的两个真实数据点,根据第二误差与两个真实数据点之间的第一曲线段的斜率得到调整量;根据调整量调整映射数据。
优选地,所述方法还包括:
根据第二误差与第一误差的比值、以及目标数据对应第一误差的不确定性得到迭代必要性;当迭代必要性小于设定阈值时,不进行迭代推理,存储隐层数据和第二误差。
优选地,所述方法还包括:
根据相邻训练数据的平均间隔量、所述两个真实数据点之间的间隔量、以及目标数据与所述两个真实数据点的间隔量得到目标数据对应的第一误差的不确定性。
优选地,利用惩罚系数对压缩网络输入与输出的差值进行修正,得到压缩网络的损失;通过损失控制所述压缩网络的输出不小于输入,惩罚系数具体为:
根据压缩网络当前输入和输出的差值、以及影响系数得到当前误差方向异常程度;根据压缩网络当前输入与输出的差值、以及所有输入和输出差值的均值得到当前误差的离群程度;将误差方向异常程度与误差的离群程度进行加权求和得到惩罚系数。
本发明还提供一种基于自编码神经网络的分布式存储系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现基于自编码神经网络的分布式存储方法的步骤。
本发明实施例至少具有如下有益效果:
通过改进压缩网络的损失函数,使其误差的分布满足分布式系统的要求;对目标数据的表示数据进行拆分组合,提高数据读取效率和容错率,让分布式存储技术更加高效、安全。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于自编码神经网络的分布式存储方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
本发明的主要目的是:利用深度学习神经网络对数据进行处理,得到编码后的多样副本数据,以便解决分布式存储系统对数据一致性、容错性的要求。为了实现本发明所述内容,本发明设计了一种基于自编码神经网络的分布式存储方法及系统。通过结合深度学习神经网络中的自编码技术来让分布式存储技术更加高效、安全。本发明所针对的情景为:先对数据进行降维压缩,得到具有一致性的表示数据,而后对表示数据进行组合分配,实现高容错性的分布式存储。
下面结合附图具体的说明本发明所提供的一种基于自编码神经网络的分布式存储方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于自编码神经网络的分布式存储方法的步骤流程图,该方法包括以下步骤:
步骤1,将训练数据输入压缩网络进行推理输出推理数据,所述压缩网络的输出不小于输入;根据训练数据与推理数据的差值得到第一误差;构建推理数据与其对应第一误差的映射关系。
本实施例中压缩网络采用的是自编码网络,自编码网络分为编码与解码两部分,输入和输出理论上应当相等。
目前,也有结合自编码网络进行数据处理的。但是,数据降维、压缩、加密等操作往往是需要高精度、甚至完全无误差恢复数据的。而神经网络本身具有不确定性的缺陷,即事实上,自编码网络恢复数据,根本达不到系统想要的绝对的无损恢复。再怎样改进训练使用的loss函数,也不会让loss收敛为0(loss为0,意味着网络的推理不再有误差)。网络只是让让其趋近于0,真的收敛为0的时候,就又出现网络过拟合的问题了。DNN网络只是在求得近似的结果,其准确性有限。想要让DNN技术和分布式存储相结合,就需要解决数据准确性的问题。
目前,DNN对数据处理时,常用的过程是以目标数据为网络输入进行推理,以网络中间层的输出为目标数据的表示数据。但是该方式忽略或者回避了网络的不确定性和不准确性。所述不确定性是指网络以目标数据为输入进行推理重构时,网络的输出数据是不确定的,可能就是目标数据(此时恰好无损),可能是误差大的数据,也可能是误差小的数据。例如,输入数据22,让自编码网络进行编码和解码后,重构得到对应的输出数据M,M值为多少,推理前是不可知的。可能为22,也可能为20,甚至可能为15。所述不准确性是网络推理的误差程度是不确定的,即loss收敛值只能表示训练数据整体平均误差。当处理新的,非训练数据集内的数据时,网络重构的误差是不确定的。所以,问题就在于:所使用的隐层输出数据并非目标数据的表示数据,而是M的表示数据。例如,想要对[10,15,29,30]数据进行推理重构,以便使用压缩的隐层输出数据z1进行表示。但是网络推理重构的数据带有误差,为[13,17,30,28],所以,存储的z1其实对应的是[13,17,30,28],即使用解码器进行数据重构推理时,最后得到的数据也是[13,17,30,28]。
只有控制网络的输出,使网络重构得到[10,15,29,30],对应的zl,才是正确的,需要的存储数据(网络是存在重构误差的,所以想要处理数据得到表示数据,不能让目标数据作为输入数据,而是输出数据)。
首先,训练适用于分布式存储系统的压缩网络,以便用于数据的压缩,否则同样的数据备份多份,所占用内存太大,性价比较低。本发明通过改进训练压缩网络所需的损失函数,使压缩网络的输出不小于输入。压缩网络的损失具体为:根据压缩网络当前输入和输出的差值、以及影响系数得到当前误差方向异常程度;根据压缩网络当前输入与输出的差值、以及所有输入和输出差值的均值得到当前误差的离群程度;将误差方向异常程度与误差的离群程度进行加权求和得到惩罚系数。利用惩罚系数对压缩网络输入与输出的差值进行修正,得到压缩网络的损失。
具体地,为了尽量降低自编码网络推理过程的不确定性,结合当前场景的特殊需求对其损失函数做出改进。不确定性指误差的正负不确定,大小值不均匀。所用损失函数为均方差损失函数的改进,形式为:
式中,ε为惩罚系数,TLn为第n个数据的网络推理值,BQn为第n个数据的标签值,N为训练批次的数据总数量。
为了后续便于搜索,需要确保误差是单方向的,即确保输出总是比输入大(或者输出比输入小),这样一来,后续得到输出后,发现比目标数据小,就可以调大(或调小)输入,而不是没方向性的在两侧搜索。同时也要尽量使得误差是一致的,降低误差的随机性。所以对均方差loss进行了改进,增加惩罚系数ε,即使得误差为正值(TL>BQ)时,且离群程度小时,影响正常,近似于1。误差为负值(TL<BQ),且离群程度大时,扩大误差的影响,使其相应的神经元权值能被优先调整。
计算误差方向异常程度Pn:
pwn=TLn-BQn
式中,γ为误差方向的影响系数,经验值为1,实施者可以根据实际需求进行调整。即推理值大于输入值时为正常,而推理值小于输入值时为异常,接受惩罚,因为网络训练时要使loss减小,趋近于0,而差值为负时,会优先根据误差修改对应的网络权值参数,最后使得网络训练的结果中推理值都大于输入值,确保了误差的单向性。
计算误差的离群程度Q:
式中,Qn为当前误差的离群程度,即当前误差与平均误差的差异。
因此,惩罚系数ε计算如下:
ε=α*Pn+β*Qn
式中,α与β分别为方向和差值数值对应影响系数,实施者可根据实际运行情况进行调节,本实施例中经验值都为1。
接着,将训练数据输入压缩网络进行推理输出推理数据,根据训练数据与推理数据的差值得到第一误差;构建推理数据与其对应第一误差的映射关系。本实施例中映射关系为查找表,根据训练数据对应的推理数据和第一误差构建查找表,查找表中的推理数据为真实数据点。
压缩网络训练完成,即loss收敛稳定后,网络内的各权值参数固定不变。需利用当前的网络,对训练数据进行再次推理。以训练完成的网络(参数固定)对训练数据再进行一次推理,得到各训练数据YJ对应的推理数据TL。推理的操作即是把训练数据YJ作为网络输入,由网络使用内部确定的参数进行计算,输出推理数据TL。
先获得第一误差WC1,即压缩网络输入和输出对应的误差:
WC1=TL-YJ
得到第一误差后,根据所有训练数据的推理数据TL和对应的第一误差WC1,得到对应的查找表,即每一个输出(推理数据)都对应了一个第一误差。查找表是在每次使用后可动态更新。同时,以训练数据为横轴坐标,推理数据为纵轴坐标进行数据散点的绘制,而后拟合即可得到对应的第一曲线。
步骤2,获取待存储的目标数据,根据映射关系获得目标数据对应的第一误差,根据目标数据与第一误差的差值得到控制数据。若待存储的目标数据在查找表中,则获取对应的第一误差,否则,获取查找表中与目标数据最接近的两个真实数据点,根据两个真实数据点对应的第一误差推测目标数据对应的第一误差。
我们训练网络时,使用的是有限的、离散的数据,而实际的数字空间必然是连续的、无穷的。若是待存储的目标数据在查找表中,则可直接查找到对应的第一误差,称查找表中的推理数据为真实数据点,通过简单的计算可得到对应的映射数据(控制数据),而后可进行数据的压缩加密。若是数据查找表中没有待存储的目标数据,则需要推测其对应的第一误差。
第一误差以及对应的不确定性可通过两种方式实现。
第一种实施方式:若数据不为真实数据点,本发明称为虚拟数据点,则需要根据其两侧最近邻的真实数据点来估计对应的第一误差。此时第一误差WC1的计算过程为:
WC1=WCz+f*zd
式中,WCz表示当前虚拟数据点左边真实数据点(最接近虚拟数据点且小于虚拟数据点的真实数据点)对应的第一误差,WCy表示当前虚拟数据点右边真实数据点(最接近虚拟数据点且大于虚拟数据点的真实数据点)对应的第一误差,f为斜率得到的比例关系,zd为当前虚拟数据点与真实数据点的距离。
同时,第一误差对应的不确定性pb的计算如下,不确定性用于确定迭代推理的必要性:
若待存储的目标数据在数据查找表中,则其不确定性pb为0;否则需要猜测数据对应的第一误差,便有了不确定性pb。
式中,PD为训练数据中相邻数据的平均间隔量,KD为数据两侧真实数据点之间的间隔量。zd为待存储的目标数据到左侧真实点的间隔量,yd为数据到右侧真实点的间隔量。表示两个真实数据点间隔越大,其内部估计的误差越不准确,呈正比。/>表示当前数据越靠近一侧的真实数据点,误差估计越准确,呈反比。进一步地,对pb进行归一化处理,使所有pb的取值范围在[0,1]之间。
第二种实施方式通过训练误差推理网络来进行误差数据的获得和分析。获得误差推理网络的输入为推理数据YJ,输出为第一误差WC1及对应的不确定性pb。基于第一种实施方式得到所有训练数据及其对应的标签数据(第一误差以及不确定性),紧接着构建全连接网络(FC),其中输入层神经元数量为M,输出层神经元数量为2*M。即每一个输入数据对应了一个第一误差和不确定性数据。可先随机得到训练数据TL,根据上述方式计算得到对应的第一误差WC1和不确定性pb。网络的损失函数采用均方差损失函数。随着使用,数据查找表中的数据在不断扩增,一些虚拟数据点的身份也会转换为真实数据点,所以对应的不确定性也会发生变化。所以,本神经网络需要定时进行重训练。
至此,可通过目标数据MB的两侧真实数据点获取第一误差WC1,也可通过将目标数据MB作为输入,由误差推理网络进行推理得到第一误差WC1。根据MB、WC1得到映射数据YS=MB-WC1。
若待存储的目标数据不在查找表中,则将目标数据与第一误差的差值作为映射数据;对映射数据进行迭代推理得到控制数据,所述迭代推理包括:将映射数据输入压缩网络进行推理得到实际推理数据,根据目标数据与实际推理数据的差值得到第二误差;若第二误差为零,则迭代停止,映射数据为控制数据,否则根据第二误差调整映射数据并对调整后的映射数据进行迭代推理。所述根据第二误差调整映射数据包括:根据推理数据与其对应的训练数据进行曲线拟合到第一曲线;根据实际推理数据及其对应的第二误差对第一曲线进行调整,获取第一曲线上与实际推理数据最近的两个真实数据点,根据第二误差与两个真实数据点之间的第一曲线段的斜率得到调整量;根据调整量调整映射数据。特别地,根据第二误差与第一误差的比值、以及目标数据对应第一误差的不确定性得到迭代必要性;当迭代必要性小于设定阈值时,不进行迭代推理,同时存储隐层数据和误差数据。
具体地,使用得到的映射数据YS作为压缩网络的输入,由压缩网络得到对应的实际推理数据SJ。计算第二误差WC2:
WC2=MB-SJ
若WC2=0,则此时的映射数据即可作为目标数据MB的控制数据SR。
若WC2≠0,则此时拟合的误差并不准确,从而使得映射数据与想要的控制数据SR之间还有差异。所以需要在映射数据YS的基础上再进行调整,直到第二误差WC2满足要求(等于0或者小于设定误差)。
计算迭代的必要性,来判断是否需要进行迭代调整:
by=1-nt
式中,pb取值为[0,1],nd为迭代难度,其取值也为[0,1],正常预估时WC2应该为0,此时得到的第二误差越大,则表明和预估偏差越大,则越难调整,同时不准确性越高,说明该点虚拟数据点距离真实数据点越远,则获得真实数据点的迭代过程会越难。
当迭代必要性by小于设定阈值(本实施例中阈值设置为0.5),则认为该处迭代调整得到最优数据,程度较难。所以,不进行迭代调整,同时存储隐含层数据和误差数据。此时存储数据的字节数DQ=Mg+Mc+md。其中,隐含层最小字节数Mg,同时得到WC2,计算其字节数Mc,md为标记符对应的字节数,即分隔表示数据和误差数据所用的字节数。
当迭代必要性by大于设定阈值时,认为有必要进行多次迭代来调整映射数据YS,使得最后获得MB对应的无损的输入SR。迭代调整的具体过程为:
(1)获得调整方向,调整方向是指在当前映射数据YS的基础上增加还是减去调整量。根据第一曲线可得调整方向的规律,由第二误差的类型来判断调整方向,具体为:当WC2>0,则减少WC1,即增大输入数据YS。当WC2<0,则增大WC1,即减小输入数据YS。WC2的正负和YS需要的变化是一致的。
(2)获得调整量:
调整量是与当前的第二误差相关的,调整量cl为:
式中,tanθ为两个真实数据点之间第一曲线段的斜率。WC2的取值不同,对应的数据角标A、B也不同。当WC2>0,需要使用大的真实点减去当前推理点,当WC2<0,需要使用当前推理点减去小的真实点。
所以综合其调整方向,得到调整量:
其中,每次调整共涉及三个点,前一个真实点(角标为-1),当前点(角标为0),后一个真实点(角标为1)。所述真实点即为真实由压缩网络推理后得到的数据点,而非拟合猜测的拟合点。根据调整量调整映射数据得到YS+tz,将YS+tz作为映射数据输入压缩网络进行迭代,得到新的输出数据,同理得到新的第二误差WC2。
不断进行循环调整,根据新的WC1和WC2,进行调整量的获得,直到WC2满足要求即可停止,此时对应的映射数据YS即为所需的控制数据SR。
步骤3,将控制数据输入压缩网络得到最短隐层;将最短隐层数据作为表示数据,对表示数据进行拆分组合得到要存储各服务器的数据。
将SR输入压缩网络推理可恢复出目标数据MB。将推理过程中字节数最小的隐层数据为目标数据MB的表示数据,记为Mg。对表示数据Mg进行拆分,使得分布式存储数据能够增强数据的读取效率和容错性,然后将拆分数据分配到各分布式存储服务器中。
优选地,可采用如下方式进行分布式存储:得到可存储数据的服务器的数量R,得到Mg的字节数量Ge。若R>=Ge,即服务器大于Mg的字节数,此时先对Mg进行移位组合,得到存储数据,而后存储到各服务器中。例如:需要存储的一组数据为{1,2,3,4,5},7个服务器中每个服务器的数据分别为{1,2,3,4,5},{2,3,4,5,1},{3,4,5,1,2},{4,5,1,2,3},{5,1,2,3,4},{1,2,3,4,5},{2,3,4,5,1},该数据字节数为5,且服务器数为7,所以需要补充数据后,移位得到各服务器中存储数据,每个服务器仅读取第一个字节,即可得到完整的数据。若R<Ge,即字节数多于服务器数量,则需对数据进行均匀分段,每段字节数为:Ge/R。例如:需要存储的一组数据为{1,2,3,4,5,6,7},3个服务器中每个服务器的数据分别为,{1,2,3,4,5,6,7},{3,4,5,6,7,1,2},{5,6,7,1,2,3,4},该组数据字节数为7,且服务器数为3,所以均匀分为2、2、3,共3段,每段依次移位得到各服务器内存储数据。
实施例2:
本实施例提供一种基于自编码神经网络的分布式存储系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现基于自编码神经网络的分布式存储方法的步骤。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于自编码神经网络的分布式存储方法,其特征在于,该方法包括以下步骤:
将训练数据输入压缩网络进行推理输出推理数据,所述压缩网络的输出不小于输入;根据训练数据与推理数据的差值得到第一误差;构建推理数据与其对应第一误差的映射关系;
获取待存储的目标数据,根据映射关系获得目标数据对应的第一误差,根据目标数据与第一误差的差值得到控制数据;
将控制数据输入压缩网络得到最短隐层;将最短隐层数据作为表示数据,对表示数据进行拆分组合得到要存储到各服务器的数据;
利用惩罚系数对压缩网络输入与输出的差值进行修正,得到压缩网络的损失;通过损失控制所述压缩网络的输出不小于输入,惩罚系数具体为:
根据压缩网络当前输入和输出的差值、以及影响系数得到当前误差方向异常程度;根据压缩网络当前输入与输出的差值、以及所有输入和输出差值的均值得到当前误差的离群程度;将误差方向异常程度与误差的离群程度进行加权求和得到惩罚系数;
利用惩罚系数对压缩网络输入与输出的差值进行修正,得到压缩网络的损失函数,所述损失函数为:
式中,e为损失函数,ε为惩罚系数,TLn为第n个数据的网络推理值,BQn为第n个数据的标签值,N为训练批次的数据总数量;
计算误差方向异常程度Pn:
pwn=TLn-BQn
式中,γ为误差方向的影响系数,pwn为第n个数据的网络推理值与标签值的差值;
计算误差的离群程度Q:
式中,Qn为当前误差的离群程度;
惩罚系数ε计算如下:
ε=α*Pn+β*Qn
式中,α与β分别为方向和差值数值对应影响系数;
所述根据映射关系获得目标数据对应的第一误差包括:
映射关系为查找表,根据训练数据对应的推理数据和第一误差构建查找表,查找表中的推理数据为真实数据点;若待存储的目标数据在查找表中,则获取对应的第一误差,否则,获取查找表中与目标数据最接近的两个真实数据点,根据两个真实数据点对应的第一误差推测目标数据对应的第一误差;
所述方法还包括:
若待存储的目标数据不在查找表中,则将目标数据与第一误差的差值作为映射数据;
对映射数据进行迭代推理得到控制数据,所述迭代推理包括:将映射数据输入压缩网络进行推理得到实际推理数据,根据目标数据与实际推理数据的差值得到第二误差;若第二误差为零,则迭代停止,映射数据为控制数据,否则根据第二误差调整映射数据并对调整后的映射数据进行迭代推理。
2.根据权利要求1所述的方法,其特征在于,所述根据第二误差调整映射数据包括:
根据推理数据与其对应的训练数据进行曲线拟合到第一曲线;根据实际推理数据及其对应的第二误差对第一曲线进行调整,获取第一曲线上与实际推理数据最近的两个真实数据点,根据第二误差与两个真实数据点之间的第一曲线段的斜率得到调整量;根据调整量调整映射数据。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据第二误差与第一误差的比值、以及目标数据对应第一误差的不确定性得到迭代必要性;当迭代必要性小于设定阈值时,不进行迭代推理,存储隐层数据和第二误差。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据相邻训练数据的平均间隔量、所述两个真实数据点之间的间隔量、以及目标数据与所述两个真实数据点的间隔量得到目标数据对应的第一误差的不确定性。
5.一种基于自编码神经网络的分布式存储系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111088135.4A CN113780450B (zh) | 2021-09-16 | 2021-09-16 | 基于自编码神经网络的分布式存储方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111088135.4A CN113780450B (zh) | 2021-09-16 | 2021-09-16 | 基于自编码神经网络的分布式存储方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113780450A CN113780450A (zh) | 2021-12-10 |
CN113780450B true CN113780450B (zh) | 2023-07-28 |
Family
ID=78851595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111088135.4A Active CN113780450B (zh) | 2021-09-16 | 2021-09-16 | 基于自编码神经网络的分布式存储方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113780450B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122809A (zh) * | 2017-04-24 | 2017-09-01 | 北京工业大学 | 基于图像自编码的神经网络特征学习方法 |
CN108921343A (zh) * | 2018-06-26 | 2018-11-30 | 浙江工业大学 | 基于堆栈自编码器-支持向量回归的交通流量预测方法 |
CN110751264A (zh) * | 2019-09-19 | 2020-02-04 | 清华大学 | 一种基于正交自编码神经网络的用电模式识别方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106713385A (zh) * | 2015-11-13 | 2017-05-24 | 中国电信股份有限公司 | 分布式存储冗余数据压缩方法和系统、客户端以及服务器 |
CN109076148B (zh) * | 2016-04-12 | 2021-02-05 | 奎蒂安特有限公司 | 日常场景重建引擎 |
CN106707099B (zh) * | 2016-11-30 | 2019-04-12 | 国网上海市电力公司 | 基于异常用电检测模型的监测定位方法 |
US11429111B2 (en) * | 2017-02-08 | 2022-08-30 | Marquette University | Robotic tracking navigation with data fusion |
MX2019014690A (es) * | 2017-10-16 | 2020-02-07 | Illumina Inc | Tecnicas basadas en aprendizaje profundo para el entrenamiento de redes neuronales convolucionales profundas. |
CN108304556B (zh) * | 2018-02-06 | 2019-06-07 | 中国传媒大学 | 基于内容与协同过滤相结合的个性化推荐方法 |
CN108764064A (zh) * | 2018-05-07 | 2018-11-06 | 西北工业大学 | 基于导向滤波器与自编码器的sar目标识别算法 |
CN109783603B (zh) * | 2018-12-13 | 2023-05-26 | 平安科技(深圳)有限公司 | 基于自编码神经网络的文本生成方法、装置、终端及介质 |
US11210554B2 (en) * | 2019-03-21 | 2021-12-28 | Illumina, Inc. | Artificial intelligence-based generation of sequencing metadata |
US20200334680A1 (en) * | 2019-04-22 | 2020-10-22 | Paypal, Inc. | Detecting anomalous transactions using machine learning |
CN110119447B (zh) * | 2019-04-26 | 2023-06-16 | 平安科技(深圳)有限公司 | 自编码神经网络处理方法、装置、计算机设备及存储介质 |
CN112100645A (zh) * | 2019-06-18 | 2020-12-18 | 中国移动通信集团浙江有限公司 | 数据处理方法及装置 |
CN110550518B (zh) * | 2019-08-29 | 2020-07-28 | 电子科技大学 | 一种基于稀疏去噪自编码的电梯运行异常检测方法 |
CN110929843A (zh) * | 2019-10-29 | 2020-03-27 | 国网福建省电力有限公司 | 一种基于改进深度自编码网络的异常用电行为辨识方法 |
CN111401236A (zh) * | 2020-03-16 | 2020-07-10 | 西北工业大学 | 基于自编码神经网络的水声信号去噪方法 |
CN113191439A (zh) * | 2021-05-10 | 2021-07-30 | 中南大学 | 偏差度惩罚的增强型堆叠自动编码器处理方法及装置 |
-
2021
- 2021-09-16 CN CN202111088135.4A patent/CN113780450B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122809A (zh) * | 2017-04-24 | 2017-09-01 | 北京工业大学 | 基于图像自编码的神经网络特征学习方法 |
CN108921343A (zh) * | 2018-06-26 | 2018-11-30 | 浙江工业大学 | 基于堆栈自编码器-支持向量回归的交通流量预测方法 |
CN110751264A (zh) * | 2019-09-19 | 2020-02-04 | 清华大学 | 一种基于正交自编码神经网络的用电模式识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113780450A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113159173B (zh) | 一种结合剪枝与知识蒸馏的卷积神经网络模型压缩方法 | |
CN101183873B (zh) | 一种基于bp神经网络的嵌入式系统数据压缩解压缩方法 | |
US12165051B2 (en) | Neural network parameter optimization method and neural network computing method and apparatus suitable for hardware implementation | |
CN111078911A (zh) | 一种基于自编码器的无监督哈希方法 | |
CN110705711A (zh) | 一种量子态信息降维编码方法及装置 | |
Yoon et al. | Bitwidth heterogeneous federated learning with progressive weight dequantization | |
CN111291861A (zh) | 一种应用于脉冲神经网络的输入脉冲编码方法 | |
CN117592538A (zh) | 一种基于通道剪枝的高效联邦学习系统及方法 | |
CN118397369A (zh) | 一种基于人工智能的电子产品芯片级检测方法及装置 | |
CN113780450B (zh) | 基于自编码神经网络的分布式存储方法及系统 | |
CN103838649A (zh) | 一种降低二进制编码存储系统中计算量的方法 | |
CN109389221A (zh) | 一种神经网络压缩方法 | |
CN118733885B (zh) | 面向推荐公平性的生成式序列推荐模型及构建方法 | |
Han et al. | Online aware synapse weighted autoencoder for recovering random missing data in wastewater treatment process | |
CN117240689B (zh) | 一种基于深度对比学习的节点受攻击复杂网络自重建方法 | |
CN119089967A (zh) | 用于量化的多模态大模型的指令微调方法、电子设备和存储介质 | |
CN113177627A (zh) | 优化系统、重新训练系统及其方法及处理器和可读介质 | |
Li et al. | Online Bayesian dictionary learning for large datasets | |
CN118193507A (zh) | 一种基于张量补全和图注意力网络的交通流量数据插补方法及系统 | |
CN117633712A (zh) | 一种基于多源数据的海表高度数据融合方法、装置及设备 | |
CN117913778A (zh) | 一种短期风电功率预测方法、系统、电子设备及存储介质 | |
CN113220671B (zh) | 一种基于用电模式分解重构的电力负荷缺失数据修复方法 | |
CN115983320A (zh) | 一种基于深度强化学习的联邦学习模型参数量化方法 | |
CN112667394B (zh) | 一种计算机资源利用率优化方法 | |
CN115062611A (zh) | 一种语法纠错模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |