CN118964335B

CN118964335B - 一种训练数据集版本管理方法及系统

Info

Publication number: CN118964335B
Application number: CN202411441169.0A
Authority: CN
Inventors: 宋喆; 肖雪; 玄德; 张建伟; 高传集
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2024-10-16
Filing date: 2024-10-16
Publication date: 2025-03-25
Anticipated expiration: 2044-10-16
Also published as: CN118964335A

Abstract

本发明公开一种训练数据集版本管理方法及系统，涉及数据管理技术领域；包括：步骤1：建立用于模型训练的数据集，为数据集生成唯一标识，步骤2：管理数据集版本：步骤21：建立数据集版本，步骤22：利用公式V=D+T+S，生成数据集版本标识，步骤23：根据数据集版本，创建所选数据集的静态快照；步骤24：根据静态快照，检查数据集中将发生内容变动的文件对象是否包含在静态快照中，是则将文件对象的当前版本拷贝到静态快照的对应存储中，并更新静态快照的元数据的对象索引，再进行数据集的变动操作，步骤25：校验数据集完整性；本发明降低数据管理复杂度，保障模型训练的质量和可靠性。

Description

一种训练数据集版本管理方法及系统

技术领域

本发明公开一种训练数据集版本管理方法及系统，涉及数据管理技术领域。

背景技术

随着人工智能技术的飞速发展和大数据时代的到来，训练数据集作为机器学习模型的基石，其规模日益庞大，复杂度也显著提升。然而目前存在训练数据集版本控制不严格、版本信息缺失、更新效率低下、回溯困难等问题。这些问题不仅增加了数据管理的复杂度，还可能导致数据一致性问题频发，进而影响模型训练的结果和可靠性。同时，由于缺乏有效的版本控制机制，不同版本之间的数据差异难以准确追踪，历史版本数据也往往难以恢复。更为严重的是，在数据传输、存储和处理过程中，数据的完整性可能会受到破坏，如数据被篡改、丢失或损坏等，这也直接影响模型训练的结果和可靠性。

发明内容

本发明针对现有技术的问题，提供一种训练数据集版本管理方法及系统，显著降低数据管理的复杂度，提升版本管理的效率和准确性，从而保障模型训练的质量和可靠性。

本发明提出的具体方案是：

本发明提供一种训练数据集版本管理方法，包括：

步骤1：建立用于模型训练的数据集，为数据集生成唯一标识，唯一标识采用通用唯一识别码UUID，

步骤2：管理数据集版本：

步骤21：建立数据集版本，

步骤22：利用公式V = D + T + S，生成数据集版本标识，V为数据集版本标识，D为数据集唯一标识，T为时间戳，S为顺序编号，用于区分统一时间戳下多个数据集版本；

步骤23：根据数据集版本，创建所选数据集的静态快照，静态快照保存的元数据包括数据集版本标识V，创建时间、数据集包含的文件对象列表、对象索引以及每个文件对象的版本标识；

步骤24：根据静态快照，检查数据集中将发生内容变动的文件对象是否包含在静态快照中，是则在内容变动前将文件对象的当前版本拷贝到静态快照的对应存储中，并更新静态快照的元数据的对象索引，再进行数据集的变动操作，

步骤25：校验数据集完整性：根据数据集版本，明确数据集的边界，确定哪些文件对象被包含在当前的数据集版本之中，采用哈希算法对数据集中每个文件对象进行哈希值计算并记录哈希值，当数据集被调度用于执行训练任务前，遍历数据集中所有文件对象，使用相同的哈希算法重新计算每个文件对象的哈希值，并将新计算的哈希值与记录哈希值进行比对，若所有哈希值都匹配，则校验通过，否则触发警报。

进一步，所述的一种训练数据集版本管理方法的步骤1中还对数据集中文件对象进行分类管理，包括：根据当前数据集所包含文件的扩展名类型识别文件对象类型，文件对象类型包括图片、视频、音频和文本，并将文件对象类型与数据集中文件对象的保存路径作为元数据保存于数据库中。

进一步，所述的一种训练数据集版本管理方法的步骤21中建立数据集版本包括两种方式，一种方式为基于数据集中原始文件对象内容捕捉数据的静态快照，建立数据集版本并发布；另一种方式为基于已发布的数据集版本，在已有的数据集版本的文件对象内容基础上变更文件对象内容，生成新的数据集版本并发布。

进一步，所述的一种训练数据集版本管理方法的步骤25中校验数据集完整性，包括：

引入数据签名机制，利用哈希值记录文件记录每个文件对象的哈希值，使用私钥对哈希值记录文件加密，生成数字签名，

当数据集被调度用于执行训练任务前，使用对应的公钥对数字签名进行解密，获得原始的哈希值记录文件，并遍历数据集中所有文件对象，使用相同的哈希算法重新计算每个文件对象的哈希值，并将新计算的哈希值与哈希值记录文件中记录的哈希值进行比对，若所有哈希值都匹配，则校验通过，否则触发警报。

本发明还提供一种训练数据集版本管理系统，包括数据集管理模块、版本管理模块和完整性校验模块，

数据集管理模块建立用于模型训练的数据集，为数据集生成唯一标识，唯一标识采用通用唯一识别码UUID，

版本管理模块管理数据集版本：

建立数据集版本，

利用公式V = D + T + S，生成数据集版本标识，V为数据集版本标识，D为数据集唯一标识，T为时间戳，S为顺序编号，用于区分统一时间戳下多个数据集版本；

根据数据集版本，创建所选数据集的静态快照，静态快照保存的元数据包括数据集版本标识V，创建时间、数据集包含的文件对象列表、对象索引以及每个文件对象的版本标识；

根据静态快照，检查数据集中将发生内容变动的文件对象是否包含在静态快照中，是则在内容变动前将文件对象的当前版本拷贝到静态快照的对应存储中，并更新静态快照的元数据的对象索引，再进行数据集的变动操作；

完整性校验模块校验数据集完整性：根据数据集版本，明确数据集的边界，确定哪些文件对象被包含在当前的数据集版本之中，采用哈希算法对数据集中每个文件对象进行哈希值计算并记录哈希值，当数据集被调度用于执行训练任务前，遍历数据集中所有文件对象，使用相同的哈希算法重新计算每个文件对象的哈希值，并将新计算的哈希值与记录哈希值进行比对，若所有哈希值都匹配，则校验通过，否则触发警报。

进一步，所述的一种训练数据集版本管理系统的数据集管理模块还对数据集中文件对象进行分类管理，包括：根据当前数据集所包含文件的扩展名类型识别文件对象类型，文件对象类型包括图片、视频、音频和文本，并将文件对象类型与数据集中文件对象的保存路径作为元数据保存于数据库中。

进一步，所述的一种训练数据集版本管理系统的版本管理模块建立数据集版本包括两种方式，一种方式为基于数据集中原始文件对象内容捕捉数据的静态快照，建立数据集版本并发布；另一种方式为基于已发布的数据集版本，在已有的数据集版本的文件对象内容基础上变更文件对象内容，生成新的数据集版本并发布。

进一步，所述的一种训练数据集版本管理系统的完整性校验模块校验数据集完整性，包括：

本发明方法的有益之处是：

通过版本控制和智能化的数据处理机制，实现了对训练数据集版本的高效追踪与管理。不仅解决了数据集管理上面临的诸多问题，如版本混乱、数据丢失、篡改风险等问题，还为机器学习模型的训练与迭代提供了强有力的支持。

采用多层次版本控制策略和精细化管理，能够精确捕捉数据集的每一个变化，并生成唯一的版本标识，确保了数据集的版本清晰可追溯，同时减少了人工干预和错误率，大大提高了数据集管理的精确性和效率。用户能够轻松查询、比较和回滚到任意历史版本，从而加速机器学习模型的调试和优化过程。

流程自动化地管理和监控数据集的创建、修改、发布到使用整个过程，提升了数据集管理效率、保障数据完整性与安全性，并能够促进团队协作与数据共享。

附图说明

图1是本发明方法流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例1：本发明提供一种训练数据集版本管理方法，包括：

步骤1：建立用于模型训练的数据集，为数据集生成唯一标识，唯一标识可以采用32位通用唯一识别码UUID。

其中步骤1中还对数据集中文件对象进行分类管理，包括：根据当前数据集所包含文件的扩展名类型识别文件对象类型，文件对象类型包括图片、视频、音频和文本等，并将文件对象类型与数据集中文件对象的保存路径作为元数据保存于数据库中。

步骤2：管理数据集版本：

步骤21：建立数据集版本。其中建立数据集版本包括两种方式，一种方式为基于数据集中原始文件对象内容捕捉数据的静态快照，建立数据集版本并发布；另一种方式为基于已发布的数据集版本，在已有的数据集版本的文件对象内容基础上变更文件对象内容，生成新的数据集版本并发布。

步骤22：利用公式V = D + T + S，生成数据集版本标识，V为数据集版本标识，D为数据集唯一标识，T为时间戳，S为顺序编号，用于区分统一时间戳下多个数据集版本。

步骤23：根据数据集版本，创建所选数据集的静态快照，静态快照保存的元数据包括数据集版本标识V，创建时间、数据集包含的文件对象列表、对象索引以及每个文件对象的版本标识。每个数据集版本都是对原始数据集在特定时间点的精确快照，因此数据集版本不仅捕捉了数据的静态快照，还蕴含了数据集的完整历史记录与演变轨迹。通过本发明的数据集版本标识可确保数据集的高度可追溯性，使得任何关于数据集的疑问或回溯需求都能进行快速查询响应与解决。

步骤24：在静态快照的管理过程中，采用写入时复制的逻辑方式，当数据集中的文件内容出现变动时，根据静态快照，检查数据集中将发生内容变动的文件对象是否包含在静态快照中，是则在内容变动前将文件对象的当前版本拷贝到静态快照的对应存储中，并更新静态快照的元数据的对象索引，再进行数据集的变动操作。此过程尽可能减少了存储空间的占用，不需要为每个静态快照都复制整个数据集。静态快照保存元数据，而不是数据文件本身，大量数据文件仍实际存储于初始的对象存储或文件存储中，因此仅当已发布数据集版本的数据文件进行变动时，才将该文件拷贝到静态快照的存储中做备份，以确保数据的完整性和一致性，同时实现了降低成本和避免不必要的资源消耗。

步骤25：校验数据集完整性：根据数据集版本，明确数据集的边界，确定哪些文件对象被包含在当前的数据集版本之中，采用哈希算法对数据集中每个文件对象进行哈希值计算并记录哈希值，哈希算法如MD5、SHA-1、优选SHA-256等，当数据集被调度用于执行训练任务前，遍历数据集中所有文件对象，使用相同的哈希算法重新计算每个文件对象的哈希值，并将新计算的哈希值与记录哈希值进行比对，若所有哈希值都匹配，则校验通过，否则触发警报。

步骤25中校验数据集完整性，可进一步包括：

引入数据签名机制，利用哈希值记录文件记录每个文件对象的哈希值，哈希值记录文件中可被整合到数据集版本的静态快照元数据中，使用私钥对哈希值记录文件加密，生成数字签名，

通过这一系列的技术措施，不仅能够确保数据集的完整性在创建、传输和使用的全过程中得到严格保护，还能够及时发现并应对潜在的安全威胁，为机器学习训练过程提供了更高的可靠性和安全性保障，有助于提升整体的数据科学工作质量和效率。

实施例2：本发明还提供一种训练数据集版本管理系统，包括数据集管理模块、版本管理模块和完整性校验模块，

版本管理模块管理数据集版本：

建立数据集版本，

根据数据集版本，创建所选数据集的静态快照，静态快照的元数据包括数据集版本标识V，创建时间、数据集包含的文件对象列表、对象索引以及每个文件对象的版本标识；

上述系统内各模块间信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

同样地，本发明系统的有益之处是：

需要说明的是，上述各流程和各系统结构中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构，也可以是逻辑结构，即，有些模块可能由同一物理实体实现，或者，有些模块可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种训练数据集版本管理方法，其特征是包括：

步骤2：管理数据集版本：

步骤21：建立数据集版本，

步骤23：根据数据集版本，创建所选数据集的静态快照，静态快照保存的元数据包括数据集版本标识V、创建时间、数据集包含的文件对象列表、对象索引以及每个文件对象的版本标识；

2.根据权利要求1所述的一种训练数据集版本管理方法，其特征是步骤1中还对数据集中文件对象进行分类管理，包括：根据当前数据集所包含文件的扩展名类型识别文件对象类型，文件对象类型包括图片、视频、音频和文本，并将文件对象类型与数据集中文件对象的保存路径作为元数据保存于数据库中。

3.根据权利要求1所述的一种训练数据集版本管理方法，其特征是步骤21中建立数据集版本包括两种方式，一种方式为基于数据集中原始文件对象内容捕捉数据的静态快照，建立数据集版本并发布；另一种方式为基于已发布的数据集版本，在已有的数据集版本的文件对象内容基础上变更文件对象内容，生成新的数据集版本并发布。

4.根据权利要求1所述的一种训练数据集版本管理方法，其特征是步骤25中校验数据集完整性，包括：

5.一种训练数据集版本管理系统，其特征是包括数据集管理模块、版本管理模块和完整性校验模块，

版本管理模块管理数据集版本：

建立数据集版本，

根据数据集版本，创建所选数据集的静态快照，静态快照保存的元数据包括数据集版本标识V、创建时间、数据集包含的文件对象列表、对象索引以及每个文件对象的版本标识；

6.根据权利要求5所述的一种训练数据集版本管理系统，其特征是数据集管理模块还对数据集中文件对象进行分类管理，包括：根据当前数据集所包含文件的扩展名类型识别文件对象类型，文件对象类型包括图片、视频、音频和文本，并将文件对象类型与数据集中文件对象的保存路径作为元数据保存于数据库中。

7.根据权利要求5所述的一种训练数据集版本管理系统，其特征是版本管理模块建立数据集版本包括两种方式，一种方式为基于数据集中原始文件对象内容捕捉数据的静态快照，建立数据集版本并发布；另一种方式为基于已发布的数据集版本，在已有的数据集版本的文件对象内容基础上变更文件对象内容，生成新的数据集版本并发布。

8.根据权利要求5所述的一种训练数据集版本管理系统，其特征是完整性校验模块校验数据集完整性，包括：