CN118964335B - 一种训练数据集版本管理方法及系统 - Google Patents
一种训练数据集版本管理方法及系统 Download PDFInfo
- Publication number
- CN118964335B CN118964335B CN202411441169.0A CN202411441169A CN118964335B CN 118964335 B CN118964335 B CN 118964335B CN 202411441169 A CN202411441169 A CN 202411441169A CN 118964335 B CN118964335 B CN 118964335B
- Authority
- CN
- China
- Prior art keywords
- data set
- version
- file
- hash value
- file object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 title claims abstract description 50
- 230000003068 static effect Effects 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 25
- 230000008859 change Effects 0.000 claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 2
- 238000013523 data management Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/219—Managing data history or versioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
- G06F16/137—Hash-based
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种训练数据集版本管理方法及系统,涉及数据管理技术领域;包括:步骤1:建立用于模型训练的数据集,为数据集生成唯一标识,步骤2:管理数据集版本:步骤21:建立数据集版本,步骤22:利用公式V=D+T+S,生成数据集版本标识,步骤23:根据数据集版本,创建所选数据集的静态快照;步骤24:根据静态快照,检查数据集中将发生内容变动的文件对象是否包含在静态快照中,是则将文件对象的当前版本拷贝到静态快照的对应存储中,并更新静态快照的元数据的对象索引,再进行数据集的变动操作,步骤25:校验数据集完整性;本发明降低数据管理复杂度,保障模型训练的质量和可靠性。
Description
技术领域
本发明公开一种训练数据集版本管理方法及系统,涉及数据管理技术领域。
背景技术
随着人工智能技术的飞速发展和大数据时代的到来,训练数据集作为机器学习模型的基石,其规模日益庞大,复杂度也显著提升。然而目前存在训练数据集版本控制不严格、版本信息缺失、更新效率低下、回溯困难等问题。这些问题不仅增加了数据管理的复杂度,还可能导致数据一致性问题频发,进而影响模型训练的结果和可靠性。同时,由于缺乏有效的版本控制机制,不同版本之间的数据差异难以准确追踪,历史版本数据也往往难以恢复。更为严重的是,在数据传输、存储和处理过程中,数据的完整性可能会受到破坏,如数据被篡改、丢失或损坏等,这也直接影响模型训练的结果和可靠性。
发明内容
本发明针对现有技术的问题,提供一种训练数据集版本管理方法及系统,显著降低数据管理的复杂度,提升版本管理的效率和准确性,从而保障模型训练的质量和可靠性。
本发明提出的具体方案是:
本发明提供一种训练数据集版本管理方法,包括:
步骤1:建立用于模型训练的数据集,为数据集生成唯一标识,唯一标识采用通用唯一识别码UUID,
步骤2:管理数据集版本:
步骤21:建立数据集版本,
步骤22:利用公式V = D + T + S,生成数据集版本标识,V为数据集版本标识,D为数据集唯一标识,T为时间戳,S为顺序编号,用于区分统一时间戳下多个数据集版本;
步骤23:根据数据集版本,创建所选数据集的静态快照,静态快照保存的元数据包括数据集版本标识V,创建时间、数据集包含的文件对象列表、对象索引以及每个文件对象的版本标识;
步骤24:根据静态快照,检查数据集中将发生内容变动的文件对象是否包含在静态快照中,是则在内容变动前将文件对象的当前版本拷贝到静态快照的对应存储中,并更新静态快照的元数据的对象索引,再进行数据集的变动操作,
步骤25:校验数据集完整性:根据数据集版本,明确数据集的边界,确定哪些文件对象被包含在当前的数据集版本之中,采用哈希算法对数据集中每个文件对象进行哈希值计算并记录哈希值,当数据集被调度用于执行训练任务前,遍历数据集中所有文件对象,使用相同的哈希算法重新计算每个文件对象的哈希值,并将新计算的哈希值与记录哈希值进行比对,若所有哈希值都匹配,则校验通过,否则触发警报。
进一步,所述的一种训练数据集版本管理方法的步骤1中还对数据集中文件对象进行分类管理,包括:根据当前数据集所包含文件的扩展名类型识别文件对象类型,文件对象类型包括图片、视频、音频和文本,并将文件对象类型与数据集中文件对象的保存路径作为元数据保存于数据库中。
进一步,所述的一种训练数据集版本管理方法的步骤21中建立数据集版本包括两种方式,一种方式为基于数据集中原始文件对象内容捕捉数据的静态快照,建立数据集版本并发布;另一种方式为基于已发布的数据集版本,在已有的数据集版本的文件对象内容基础上变更文件对象内容,生成新的数据集版本并发布。
进一步,所述的一种训练数据集版本管理方法的步骤25中校验数据集完整性,包括:
引入数据签名机制,利用哈希值记录文件记录每个文件对象的哈希值,使用私钥对哈希值记录文件加密,生成数字签名,
当数据集被调度用于执行训练任务前,使用对应的公钥对数字签名进行解密,获得原始的哈希值记录文件,并遍历数据集中所有文件对象,使用相同的哈希算法重新计算每个文件对象的哈希值,并将新计算的哈希值与哈希值记录文件中记录的哈希值进行比对,若所有哈希值都匹配,则校验通过,否则触发警报。
本发明还提供一种训练数据集版本管理系统,包括数据集管理模块、版本管理模块和完整性校验模块,
数据集管理模块建立用于模型训练的数据集,为数据集生成唯一标识,唯一标识采用通用唯一识别码UUID,
版本管理模块管理数据集版本:
建立数据集版本,
利用公式V = D + T + S,生成数据集版本标识,V为数据集版本标识,D为数据集唯一标识,T为时间戳,S为顺序编号,用于区分统一时间戳下多个数据集版本;
根据数据集版本,创建所选数据集的静态快照,静态快照保存的元数据包括数据集版本标识V,创建时间、数据集包含的文件对象列表、对象索引以及每个文件对象的版本标识;
根据静态快照,检查数据集中将发生内容变动的文件对象是否包含在静态快照中,是则在内容变动前将文件对象的当前版本拷贝到静态快照的对应存储中,并更新静态快照的元数据的对象索引,再进行数据集的变动操作;
完整性校验模块校验数据集完整性:根据数据集版本,明确数据集的边界,确定哪些文件对象被包含在当前的数据集版本之中,采用哈希算法对数据集中每个文件对象进行哈希值计算并记录哈希值,当数据集被调度用于执行训练任务前,遍历数据集中所有文件对象,使用相同的哈希算法重新计算每个文件对象的哈希值,并将新计算的哈希值与记录哈希值进行比对,若所有哈希值都匹配,则校验通过,否则触发警报。
进一步,所述的一种训练数据集版本管理系统的数据集管理模块还对数据集中文件对象进行分类管理,包括:根据当前数据集所包含文件的扩展名类型识别文件对象类型,文件对象类型包括图片、视频、音频和文本,并将文件对象类型与数据集中文件对象的保存路径作为元数据保存于数据库中。
进一步,所述的一种训练数据集版本管理系统的版本管理模块建立数据集版本包括两种方式,一种方式为基于数据集中原始文件对象内容捕捉数据的静态快照,建立数据集版本并发布;另一种方式为基于已发布的数据集版本,在已有的数据集版本的文件对象内容基础上变更文件对象内容,生成新的数据集版本并发布。
进一步,所述的一种训练数据集版本管理系统的完整性校验模块校验数据集完整性,包括:
引入数据签名机制,利用哈希值记录文件记录每个文件对象的哈希值,使用私钥对哈希值记录文件加密,生成数字签名,
当数据集被调度用于执行训练任务前,使用对应的公钥对数字签名进行解密,获得原始的哈希值记录文件,并遍历数据集中所有文件对象,使用相同的哈希算法重新计算每个文件对象的哈希值,并将新计算的哈希值与哈希值记录文件中记录的哈希值进行比对,若所有哈希值都匹配,则校验通过,否则触发警报。
本发明方法的有益之处是:
通过版本控制和智能化的数据处理机制,实现了对训练数据集版本的高效追踪与管理。不仅解决了数据集管理上面临的诸多问题,如版本混乱、数据丢失、篡改风险等问题,还为机器学习模型的训练与迭代提供了强有力的支持。
采用多层次版本控制策略和精细化管理,能够精确捕捉数据集的每一个变化,并生成唯一的版本标识,确保了数据集的版本清晰可追溯,同时减少了人工干预和错误率,大大提高了数据集管理的精确性和效率。用户能够轻松查询、比较和回滚到任意历史版本,从而加速机器学习模型的调试和优化过程。
流程自动化地管理和监控数据集的创建、修改、发布到使用整个过程,提升了数据集管理效率、保障数据完整性与安全性,并能够促进团队协作与数据共享。
附图说明
图1是本发明方法流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例1:本发明提供一种训练数据集版本管理方法,包括:
步骤1:建立用于模型训练的数据集,为数据集生成唯一标识,唯一标识可以采用32位通用唯一识别码UUID。
其中步骤1中还对数据集中文件对象进行分类管理,包括:根据当前数据集所包含文件的扩展名类型识别文件对象类型,文件对象类型包括图片、视频、音频和文本等,并将文件对象类型与数据集中文件对象的保存路径作为元数据保存于数据库中。
步骤2:管理数据集版本:
步骤21:建立数据集版本。其中建立数据集版本包括两种方式,一种方式为基于数据集中原始文件对象内容捕捉数据的静态快照,建立数据集版本并发布;另一种方式为基于已发布的数据集版本,在已有的数据集版本的文件对象内容基础上变更文件对象内容,生成新的数据集版本并发布。
步骤22:利用公式V = D + T + S,生成数据集版本标识,V为数据集版本标识,D为数据集唯一标识,T为时间戳,S为顺序编号,用于区分统一时间戳下多个数据集版本。
步骤23:根据数据集版本,创建所选数据集的静态快照,静态快照保存的元数据包括数据集版本标识V,创建时间、数据集包含的文件对象列表、对象索引以及每个文件对象的版本标识。每个数据集版本都是对原始数据集在特定时间点的精确快照,因此数据集版本不仅捕捉了数据的静态快照,还蕴含了数据集的完整历史记录与演变轨迹。通过本发明的数据集版本标识可确保数据集的高度可追溯性,使得任何关于数据集的疑问或回溯需求都能进行快速查询响应与解决。
步骤24:在静态快照的管理过程中,采用写入时复制的逻辑方式,当数据集中的文件内容出现变动时,根据静态快照,检查数据集中将发生内容变动的文件对象是否包含在静态快照中,是则在内容变动前将文件对象的当前版本拷贝到静态快照的对应存储中,并更新静态快照的元数据的对象索引,再进行数据集的变动操作。此过程尽可能减少了存储空间的占用,不需要为每个静态快照都复制整个数据集。静态快照保存元数据,而不是数据文件本身,大量数据文件仍实际存储于初始的对象存储或文件存储中,因此仅当已发布数据集版本的数据文件进行变动时,才将该文件拷贝到静态快照的存储中做备份,以确保数据的完整性和一致性,同时实现了降低成本和避免不必要的资源消耗。
步骤25:校验数据集完整性:根据数据集版本,明确数据集的边界,确定哪些文件对象被包含在当前的数据集版本之中,采用哈希算法对数据集中每个文件对象进行哈希值计算并记录哈希值,哈希算法如MD5、SHA-1、优选SHA-256等,当数据集被调度用于执行训练任务前,遍历数据集中所有文件对象,使用相同的哈希算法重新计算每个文件对象的哈希值,并将新计算的哈希值与记录哈希值进行比对,若所有哈希值都匹配,则校验通过,否则触发警报。
步骤25中校验数据集完整性,可进一步包括:
引入数据签名机制,利用哈希值记录文件记录每个文件对象的哈希值,哈希值记录文件中可被整合到数据集版本的静态快照元数据中,使用私钥对哈希值记录文件加密,生成数字签名,
当数据集被调度用于执行训练任务前,使用对应的公钥对数字签名进行解密,获得原始的哈希值记录文件,并遍历数据集中所有文件对象,使用相同的哈希算法重新计算每个文件对象的哈希值,并将新计算的哈希值与哈希值记录文件中记录的哈希值进行比对,若所有哈希值都匹配,则校验通过,否则触发警报。
通过这一系列的技术措施,不仅能够确保数据集的完整性在创建、传输和使用的全过程中得到严格保护,还能够及时发现并应对潜在的安全威胁,为机器学习训练过程提供了更高的可靠性和安全性保障,有助于提升整体的数据科学工作质量和效率。
实施例2:本发明还提供一种训练数据集版本管理系统,包括数据集管理模块、版本管理模块和完整性校验模块,
数据集管理模块建立用于模型训练的数据集,为数据集生成唯一标识,唯一标识采用通用唯一识别码UUID,
版本管理模块管理数据集版本:
建立数据集版本,
利用公式V = D + T + S,生成数据集版本标识,V为数据集版本标识,D为数据集唯一标识,T为时间戳,S为顺序编号,用于区分统一时间戳下多个数据集版本;
根据数据集版本,创建所选数据集的静态快照,静态快照的元数据包括数据集版本标识V,创建时间、数据集包含的文件对象列表、对象索引以及每个文件对象的版本标识;
根据静态快照,检查数据集中将发生内容变动的文件对象是否包含在静态快照中,是则在内容变动前将文件对象的当前版本拷贝到静态快照的对应存储中,并更新静态快照的元数据的对象索引,再进行数据集的变动操作;
完整性校验模块校验数据集完整性:根据数据集版本,明确数据集的边界,确定哪些文件对象被包含在当前的数据集版本之中,采用哈希算法对数据集中每个文件对象进行哈希值计算并记录哈希值,当数据集被调度用于执行训练任务前,遍历数据集中所有文件对象,使用相同的哈希算法重新计算每个文件对象的哈希值,并将新计算的哈希值与记录哈希值进行比对,若所有哈希值都匹配,则校验通过,否则触发警报。
上述系统内各模块间信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
同样地,本发明系统的有益之处是:
通过版本控制和智能化的数据处理机制,实现了对训练数据集版本的高效追踪与管理。不仅解决了数据集管理上面临的诸多问题,如版本混乱、数据丢失、篡改风险等问题,还为机器学习模型的训练与迭代提供了强有力的支持。
采用多层次版本控制策略和精细化管理,能够精确捕捉数据集的每一个变化,并生成唯一的版本标识,确保了数据集的版本清晰可追溯,同时减少了人工干预和错误率,大大提高了数据集管理的精确性和效率。用户能够轻松查询、比较和回滚到任意历史版本,从而加速机器学习模型的调试和优化过程。
流程自动化地管理和监控数据集的创建、修改、发布到使用整个过程,提升了数据集管理效率、保障数据完整性与安全性,并能够促进团队协作与数据共享。
需要说明的是,上述各流程和各系统结构中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构,也可以是逻辑结构,即,有些模块可能由同一物理实体实现,或者,有些模块可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (8)
1.一种训练数据集版本管理方法,其特征是包括:
步骤1:建立用于模型训练的数据集,为数据集生成唯一标识,唯一标识采用通用唯一识别码UUID,
步骤2:管理数据集版本:
步骤21:建立数据集版本,
步骤22:利用公式V = D + T + S,生成数据集版本标识,V为数据集版本标识,D为数据集唯一标识,T为时间戳,S为顺序编号,用于区分统一时间戳下多个数据集版本;
步骤23:根据数据集版本,创建所选数据集的静态快照,静态快照保存的元数据包括数据集版本标识V、创建时间、数据集包含的文件对象列表、对象索引以及每个文件对象的版本标识;
步骤24:根据静态快照,检查数据集中将发生内容变动的文件对象是否包含在静态快照中,是则在内容变动前将文件对象的当前版本拷贝到静态快照的对应存储中,并更新静态快照的元数据的对象索引,再进行数据集的变动操作,
步骤25:校验数据集完整性:根据数据集版本,明确数据集的边界,确定哪些文件对象被包含在当前的数据集版本之中,采用哈希算法对数据集中每个文件对象进行哈希值计算并记录哈希值,当数据集被调度用于执行训练任务前,遍历数据集中所有文件对象,使用相同的哈希算法重新计算每个文件对象的哈希值,并将新计算的哈希值与记录哈希值进行比对,若所有哈希值都匹配,则校验通过,否则触发警报。
2.根据权利要求1所述的一种训练数据集版本管理方法,其特征是步骤1中还对数据集中文件对象进行分类管理,包括:根据当前数据集所包含文件的扩展名类型识别文件对象类型,文件对象类型包括图片、视频、音频和文本,并将文件对象类型与数据集中文件对象的保存路径作为元数据保存于数据库中。
3.根据权利要求1所述的一种训练数据集版本管理方法,其特征是步骤21中建立数据集版本包括两种方式,一种方式为基于数据集中原始文件对象内容捕捉数据的静态快照,建立数据集版本并发布;另一种方式为基于已发布的数据集版本,在已有的数据集版本的文件对象内容基础上变更文件对象内容,生成新的数据集版本并发布。
4.根据权利要求1所述的一种训练数据集版本管理方法,其特征是步骤25中校验数据集完整性,包括:
引入数据签名机制,利用哈希值记录文件记录每个文件对象的哈希值,使用私钥对哈希值记录文件加密,生成数字签名,
当数据集被调度用于执行训练任务前,使用对应的公钥对数字签名进行解密,获得原始的哈希值记录文件,并遍历数据集中所有文件对象,使用相同的哈希算法重新计算每个文件对象的哈希值,并将新计算的哈希值与哈希值记录文件中记录的哈希值进行比对,若所有哈希值都匹配,则校验通过,否则触发警报。
5.一种训练数据集版本管理系统,其特征是包括数据集管理模块、版本管理模块和完整性校验模块,
数据集管理模块建立用于模型训练的数据集,为数据集生成唯一标识,唯一标识采用通用唯一识别码UUID,
版本管理模块管理数据集版本:
建立数据集版本,
利用公式V = D + T + S,生成数据集版本标识,V为数据集版本标识,D为数据集唯一标识,T为时间戳,S为顺序编号,用于区分统一时间戳下多个数据集版本;
根据数据集版本,创建所选数据集的静态快照,静态快照保存的元数据包括数据集版本标识V、创建时间、数据集包含的文件对象列表、对象索引以及每个文件对象的版本标识;
根据静态快照,检查数据集中将发生内容变动的文件对象是否包含在静态快照中,是则在内容变动前将文件对象的当前版本拷贝到静态快照的对应存储中,并更新静态快照的元数据的对象索引,再进行数据集的变动操作;
完整性校验模块校验数据集完整性:根据数据集版本,明确数据集的边界,确定哪些文件对象被包含在当前的数据集版本之中,采用哈希算法对数据集中每个文件对象进行哈希值计算并记录哈希值,当数据集被调度用于执行训练任务前,遍历数据集中所有文件对象,使用相同的哈希算法重新计算每个文件对象的哈希值,并将新计算的哈希值与记录哈希值进行比对,若所有哈希值都匹配,则校验通过,否则触发警报。
6.根据权利要求5所述的一种训练数据集版本管理系统,其特征是数据集管理模块还对数据集中文件对象进行分类管理,包括:根据当前数据集所包含文件的扩展名类型识别文件对象类型,文件对象类型包括图片、视频、音频和文本,并将文件对象类型与数据集中文件对象的保存路径作为元数据保存于数据库中。
7.根据权利要求5所述的一种训练数据集版本管理系统,其特征是版本管理模块建立数据集版本包括两种方式,一种方式为基于数据集中原始文件对象内容捕捉数据的静态快照,建立数据集版本并发布;另一种方式为基于已发布的数据集版本,在已有的数据集版本的文件对象内容基础上变更文件对象内容,生成新的数据集版本并发布。
8.根据权利要求5所述的一种训练数据集版本管理系统,其特征是完整性校验模块校验数据集完整性,包括:
引入数据签名机制,利用哈希值记录文件记录每个文件对象的哈希值,使用私钥对哈希值记录文件加密,生成数字签名,
当数据集被调度用于执行训练任务前,使用对应的公钥对数字签名进行解密,获得原始的哈希值记录文件,并遍历数据集中所有文件对象,使用相同的哈希算法重新计算每个文件对象的哈希值,并将新计算的哈希值与哈希值记录文件中记录的哈希值进行比对,若所有哈希值都匹配,则校验通过,否则触发警报。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411441169.0A CN118964335B (zh) | 2024-10-16 | 2024-10-16 | 一种训练数据集版本管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411441169.0A CN118964335B (zh) | 2024-10-16 | 2024-10-16 | 一种训练数据集版本管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118964335A CN118964335A (zh) | 2024-11-15 |
CN118964335B true CN118964335B (zh) | 2025-03-25 |
Family
ID=93388969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202411441169.0A Active CN118964335B (zh) | 2024-10-16 | 2024-10-16 | 一种训练数据集版本管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118964335B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674114A (zh) * | 2019-09-25 | 2020-01-10 | 北京仿真中心 | 一种分布式协同设计的数据版本控制方法和装置 |
CN114911768A (zh) * | 2022-05-24 | 2022-08-16 | 杭州野乐科技有限公司 | 基于Git的数据集版本管理方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4877193B2 (ja) * | 2007-10-26 | 2012-02-15 | 日本電気株式会社 | 版数管理システムおよび版数管理方法 |
EP4232913A1 (en) * | 2020-12-17 | 2023-08-30 | Huawei Technologies Co., Ltd. | Versioned relational dataset management |
CN114138719A (zh) * | 2021-10-29 | 2022-03-04 | 苏州浪潮智能科技有限公司 | 一种管理平台数据集的方法、系统、设备和存储介质 |
CN117787432A (zh) * | 2023-11-14 | 2024-03-29 | Oppo广东移动通信有限公司 | 基于湖仓一体的机器学习方法及装置 |
-
2024
- 2024-10-16 CN CN202411441169.0A patent/CN118964335B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674114A (zh) * | 2019-09-25 | 2020-01-10 | 北京仿真中心 | 一种分布式协同设计的数据版本控制方法和装置 |
CN114911768A (zh) * | 2022-05-24 | 2022-08-16 | 杭州野乐科技有限公司 | 基于Git的数据集版本管理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN118964335A (zh) | 2024-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12061569B2 (en) | Blockchain data archiving method, apparatus, and computer-readable storage medium | |
US11063744B2 (en) | Document flow tracking using blockchain | |
US9870508B1 (en) | Securely authenticating a recording file from initial collection through post-production and distribution | |
CN106649676B (zh) | 一种基于hdfs存储文件的去重方法及装置 | |
US11803461B2 (en) | Validation of log files using blockchain system | |
US20200110905A1 (en) | Security hardened software footprint in a computing environment | |
US20190266279A1 (en) | User clustering based on metadata analysis | |
Roussev | Digital forensic science: issues, methods, and challenges | |
CN114372296A (zh) | 一种基于区块链的用户行为数据审计方法及系统 | |
US11816069B2 (en) | Data deduplication in blockchain platforms | |
CN106354587A (zh) | 镜像服务器以及导出虚拟机镜像文件的方法 | |
CN114612115A (zh) | 基于区块链的工业产品溯源信息存储方法、溯源方法及装置 | |
US11621857B2 (en) | Fingerprint and provenance for movable storage devices | |
CN116561228A (zh) | 基于工程档案单套制归档系统及方法 | |
US12106185B2 (en) | Increasing DCF confidence for analytic value | |
CN108304724A (zh) | 文档溯源装置、系统及方法 | |
CN114860745A (zh) | 基于人工智能的数据库扩展方法及相关设备 | |
CN118964335B (zh) | 一种训练数据集版本管理方法及系统 | |
Ritzdorf et al. | Assisted deletion of related content | |
CN117278261B (zh) | 一种用于工业数据全生命周期流转的编码识别方法及系统 | |
CN109997144A (zh) | 对于固态驱动器的分开加密 | |
CN112163036A (zh) | 区块链信息的构建和查询方法及相关装置 | |
CN109583204B (zh) | 一种混合环境下静态对象篡改的监测方法 | |
CN111125141A (zh) | 一种基于区块链的国家电网资产数字存证、验证方法及设备 | |
JP2022122266A (ja) | パーソナルデータを含む媒体の安全な保存と、保存されたパーソナルデータの消去と、のためのデバイス及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |