CN118036757A

CN118036757A - 大语言模型训练方法及装置

Info

Publication number: CN118036757A
Application number: CN202410444737.6A
Authority: CN
Inventors: 代季峰; 宁雪妃
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2024-04-15
Filing date: 2024-04-15
Publication date: 2024-05-14
Anticipated expiration: 2044-04-15
Also published as: CN118036757B

Abstract

本公开涉及大语言模型技术领域，尤其涉及一种大语言模型训练方法及装置，获取基于人类反馈而获得用于奖励模型的第一数据集，第一数据集中包括手动标记的多个第一数据；利用第一数据集对预训练语言模型进行训练得目标奖励模型；根据利用目标奖励模型对第一数据进行测试得到的测试结果计算出目标奖励模型的误差率；在误差率大于或等于误差阈值时，利用第一数据集训练目标奖励模型得到新的目标奖励模型并进行误差率计算，直至最新的目标奖励模型的误差率小于误差阈值；利用所有目标奖励模型和用于大语言模型的第二数据集训练预训练语言模型得到训练好的大语言模型。利用训练出的高效奖励模型得到高性能增益的LLM，提高了LLM的精度和效果。

Description

大语言模型训练方法及装置

技术领域

本公开涉及大语言模型技术领域，尤其涉及一种大语言模型训练方法及装置。

背景技术

大语言模型（Large Language Model，LLM）是一种基于海量文本数据训练的深度学习模型。它能够理解并生成自然语言文本，应用于自然语言处理领域，如文本生成、文本摘要、语言翻译等任务；应用于人工智能领域，可以帮助机器更好地理解人类语言，实现更自然的人机交互；还可以应用于其他领域，如智能客服、智能写作、智能推荐等。例如，在智能客服中，大语言模型可以自动回答用户的问题，提高客服效率；在智能写作中，大语言模型可以辅助写作人员生成高质量的文本内容；在智能推荐中，大语言模型可以根据用户的历史行为和偏好，推荐更符合用户需求的内容。

相关技术中，利用RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习技术）进行大语言模型的训练，但是存在由于训练出的奖励模型低效导致最终训练出的大语言模型精度低、效果差的问题。

发明内容

有鉴于此，本公开提出了一种大语言模型训练方法及装置。

根据本公开的一方面，提供了一种大语言模型训练方法，所述方法包括：

获取基于人类反馈而获得的用于奖励模型的第一数据集，所述第一数据集中包括手动标记的多个第一数据；

利用所述第一数据集对预训练语言模型进行训练，得到目标奖励模型；

利用所述目标奖励模型对所述第一数据集中的部分或全部第一数据进行测试得到测试结果，并根据所述测试结果计算出所述目标奖励模型的误差率；

在所述误差率大于或等于误差阈值的情况下，利用所述第一数据集对所述目标奖励模型进行训练得到新的目标奖励模型并进行误差率计算，直至最新的目标奖励模型的误差率小于误差阈值；

利用训练得到的所有目标奖励模型和用于大语言模型的第二数据集对所述预训练语言模型进行训练，得到训练好的大语言模型，所述训练好的大语言模型用于在执行目标领域中任务的过程中基于用户输入向所述用户反馈输出结果，所述目标领域包括自然语言处理领域、人工智能领域中的至少一种。

在一种可能的实现方式中，所述第一数据以三联体方式表示，所述三联体中包括输入、针对所述输入的首选响应和非首选响应，所述测试结果包括针对每个进行测试的第一数据的置信度差值，所述置信度差值用于表示所述目标奖励模型基于所述第一数据得到的该第一数据的首选响应和非首选响应之间的差异，

其中，所述方法还包括：针对所述第一数据集中进行测试的第一数据，对置信度差值小于置信度阈值的第一数据的首选响应和/或非首选响应进行修正。

在一种可能的实现方式中，根据所述测试结果计算出所述目标奖励模型的误差率，包括：

根据各所述第一数据对应的置信度差值统计出所述目标奖励模型预测错误的错误数据量；

根据所述错误数据量和所述目标奖励模型进行测试的第一数据的总数据量之间的比值，确定出所述目标奖励模型的误差率。

在一种可能的实现方式中，所述第二数据集包括所述第一数据集，利用训练得到的所有目标奖励模型和用于大语言模型的第二数据集对所述预训练语言模型进行训练，得到训练好的大语言模型，包括：

将所述第一数据集中各所述第一数据输入当前大语言模型，以得到预测结果，其中，所述当前大语言模型为所述预训练语言模型；

在确定所述预测结果不满足预定条件的情况下，基于各所述目标奖励模型对各所述预测结果的反馈进行模型策略更新，得到更新后大语言模型，以及

将所述更新后大语言模型确定为新的当前大语言模型，并迭代执行将各所述第一数据输入当前大语言模型以得到预测结果及其之后的相应步骤；

其中，在确定所述预测结果满足预定条件的情况下，停止训练，将所述当前大语言模型确定为训练好的大语言模型。

在一种可能的实现方式中，基于各所述目标奖励模型对各所述预测结果的反馈进行模型策略更新，得到更新后大语言模型，包括：

利用各所述目标奖励模型对各所述预测结果进行评分，得到各所述目标奖励模型反馈的奖励信号；

根据各所述目标奖励模型的所述奖励信号和对应的权重，采用预设算法更新所述当前大语言模型的参数，完成模型策略更新，得到更新后大语言模型，其中，所述预设算法包括强化学习算法。

根据本公开的另一方面，提供了一种大语言模型训练装置，所述装置包括：

数据集获取模块，用于获取基于人类反馈而获得的用于奖励模型的第一数据集，所述第一数据集中包括手动标记的多个第一数据；

第一训练模块，用于利用所述第一数据集对预训练语言模型进行训练，得到目标奖励模型；

误差率计算模块，用于利用所述目标奖励模型对所述第一数据集中的部分或全部第一数据进行测试得到测试结果，并根据所述测试结果计算出所述目标奖励模型的误差率；

第二训练模块，用于在所述误差率大于或等于误差阈值的情况下，利用所述第一数据集对所述目标奖励模型进行训练得到新的目标奖励模型并进行误差率计算，直至最新的目标奖励模型的误差率小于误差阈值；

第三训练模块，用于利用训练得到的所有目标奖励模型和用于大语言模型的第二数据集对所述预训练语言模型进行训练，得到训练好的大语言模型，所述训练好的大语言模型用于在执行目标领域中任务的过程中基于用户输入向所述用户反馈输出结果，所述目标领域包括自然语言处理领域、人工智能领域中的至少一种。

其中，所述装置还包括：

数据修正模块，用于针对所述第一数据集中进行测试的第一数据，对置信度差值小于置信度阈值的第一数据的首选响应和/或非首选响应进行修正。

在一种可能的实现方式中，所述误差率计算模块，包括：

错误统计子模块，用于根据各所述第一数据对应的置信度差值统计出所述目标奖励模型预测错误的错误数据量；

计算子模块，用于根据所述错误数据量和所述目标奖励模型进行测试的第一数据的总数据量之间的比值，确定出所述目标奖励模型的误差率。

在一种可能的实现方式中，所述第二数据集包括所述第一数据集，利用训练得到的所有目标奖励模型和用于大语言模型的第二数据集对所述预训练语言模型训练，得到训练好的大语言模型，包括：

将所述第一数据集中各所述第一数据输入当前大语言模型，以得到预测结果，其中，所述当前大语言模型为所述预训练语音模型；

其中，在确定所述预测结果满足预定条件的情况下，停止训练，将所述当前大语言模型作为训练好的大语言模型。

根据本公开的另一方面，提供了一种大语言模型训练装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为在执行所述存储器存储的指令时，实现上述方法。

根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述方法。

通过本公开实施例提供的大语言模型训练方法及装置，获取基于人类反馈而获得的用于奖励模型的第一数据集，所述第一数据集中包括手动标记的多个第一数据；利用所述第一数据集对预训练语言模型进行训练，得到目标奖励模型；利用所述目标奖励模型对第一数据集中的部分或全部第一数据进行测试得到测试结果，并根据所述测试结果计算出所述目标奖励模型的误差率；在所述误差率大于或等于误差阈值的情况下，利用所述第一数据集对所述目标奖励模型进行训练得到新的目标奖励模型并进行误差率计算，直至最新的目标奖励模型的误差率小于误差阈值；利用训练得到的所有目标奖励模型和用于大语言模型的第二数据集进行训练，得到训练好的大语言模型。训练出高效的奖励模型，最终获得高性能增益的LLM，提高了LLM的精度和效果。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开实施例的一种大语言模型训练方法的流程图。

图2示出根据本公开实施例的一种大语言模型训练方法中模型训练的示意图。

图3示出根据本公开实施例的一种大语言模型训练装置的框图。

图4是根据一示例性实施例示出的一种用于大语言模型训练的装置1900的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

大语言模型（LLM）在预训练的过程中通常会捕捉数据的特征，而这些训练数据通常既包含高质量的也包含低质量的，因此大语言模型有时会产生反期望行为，如编造事实、生成有偏见或有毒的文本，甚至生成对人类有害的内容。因此，将LLM与人类价值观（如helpful（有益的）、honest（诚实的）、harmless（无害的），即3H）对齐是非常重要的，相关技术中采用的基于人类反馈的强化学习技术（RLHF）进行针对大语言模型的训练，大体过程包括如下核心阶段：

阶段一：预训练语言模型（Pre-training the Language Model）

在这个阶段，首先选择一个经典的预训练语言模型（即，经预训练的语言模型）作为初始模型。例如，OpenAI在其第一个RLHF模型InstructGPT中使用了较小版本的GPT-3，而DeepMind则使用了自家的2800亿参数模型Gopher。这些预训练语言模型通常在大量的无标签数据上进行训练，以学习语言的结构和规则。

阶段二：收集数据并训练奖励模型（Collecting Data and Training the RewardModel）

在这个阶段，需要收集人类对于模型输出的质量评估数据。这些数据通常是通过人工标注或用户互动获得的。然后，利用这些数据训练一个奖励模型，该奖励模型能够预测给定输入下模型输出的质量或人类对其的偏好程度。奖励模型通常是一个简单的机器学习模型，如线性回归或神经网络。

阶段三：通过强化学习微调语言模型（Fine-tuning the Language Model viaReinforcement Learning）

在这个阶段，使用强化学习算法对预训练语言模型进行微调。这里的关键是利用奖励模型提供的奖励信号来指导模型的训练。

但是存在以下问题：如果只利用人类反馈数据，收集人类反馈数据时间较长，成本较高；此外不同人之间的目标不一致，导致评估者可能追求错误的目标；而且由于时间、注意力或疏忽，当人类处理较多的数据时，可能会犯简单的错误，导致在处理大量数据时得到的反馈质量较低。这就会出现如果获取的人类反馈数据多，就会导致数据质量较低无法得到高效的奖励模型；而如果为了避免人的简单错误，降低人类反馈数据数量，同样会导致无法得到高效的奖励模型，这两种情况最终都会因为无法得到高效的奖励模型，而使得最终LLM的精度低、效果不好。而如果只使用AI（人工智能）反馈数据时，大部分数据的反馈结果都能够和人类的反馈对齐，但是存在一部分的数据无法和人类对齐，导致数据整体质量不高，无法得到高效的奖励模型，而使得最终LLM的精度低、效果不好。

为解决上述技术问题，本公开实施例提供一种大语言模型训练方法及装置，获取基于人类反馈的第一数据集，所述第一数据集中包括手动标记的多个第一数据；利用所述第一数据集对预训练语言模型进行训练，得到目标奖励模型；利用所述目标奖励模型对第一数据集中的部分或全部第一数据进行测试得到测试结果，并根据所述测试结果计算出所述目标奖励模型的误差率；在所述误差率大于或等于误差阈值的情况下，利用所述第一数据集对所述目标奖励模型进行训练得到新的目标奖励模型并进行误差率计算，直至最新的目标奖励模型的误差率小于误差阈值；利用训练得到的所有目标奖励模型和用于大语言模型的第二数据集对所述预训练语言模型进行训练，得到训练好的大语言模型。训练出高效的奖励模型，最终获得高性能增益的LLM，提高了LLM的精度和效果。

图1示出根据本公开一实施例的大语言模型训练方法的流程图。如图1所示，该方法包括步骤S101-步骤S105。

在步骤S101中，获取基于人类反馈而获得的用于奖励模型的第一数据集，所述第一数据集中包括手动标记的多个第一数据。

在一些实施例中，第一数据集D中第一数据以三联体d的方式表示，所述三联体d中包括输入x_i、针对输入x_i的首选响应y_w和非首选响应y_l，则第一数据集D可以表示为：D={d|d=(x_i,y_w,y_l)}。其中，x_i表示第i个第一数据的输入。其中，首选响应y_w表示符合人类正常偏好的响应，非首选响应y_l表示基于人类正常偏好不会首选的响应。

在步骤S102中，利用所述第一数据集对预训练语言模型进行训练，得到目标奖励模型。

在一些实施例中，奖励模型可以是使用移除了最后一个unembedding层（解嵌入层）的预训练语言模型来作为基础架构。例如，可以将最后一个token（词元或词块）最终的embedding（嵌入）输入给一个线性层，然后得到一个标量值，即是奖励值。在一些实施例中，奖励模型还可以是机器学习模型，如线性回归或神经网络等等。可以根据实际需要对奖励模型的实现方式进行设置，本公开对此不作限制。

在本实施例中，训练奖励模型所使用的损失函数可以如下公式所示：

其中，σ是sigmoid函数，λ和β_ri是超参数，β_ri可以训练过程中针对第i个目标奖励模型进行相应设置。表示针对最新的第一数据集D_ri（若无需更新修正第一数据，该D_ri即为上述D；若需要更新修正第一数据则D_ri即为下述最新的第一数据集D_ri，D_ri表示D_ri是基于第i个目标奖励模型确定出的）的期望。r代表奖励模型（本文由于奖励模型多次训练得到多个目标奖励模型，为区分用r_i或/>表示第i个目标奖励模型），r(x,y_w)表示输入为x和y_w的得分，r(x,y_l)表示输入为x和y_l的得分，x即为各第一数据的输入x_i。r'是与r与除了顶部线性层不同以外的同一个模型（r'线性层的维度为词典的大小），r'(x,y_w)是给定提示词（prompt）x和偏好回复y_w后的似然。其中，提示词x可以是提供给奖励模型的一个指令或上下文，用于指导奖励模型生成特定的文本输出。提示词x可以是一个问题、一个描述、一个指令或其他任何形式的文本输入。应理解，还可以采用其他合适的损失函数来训练奖励模型。

在步骤S103中，利用所述目标奖励模型对第一数据集中的部分或全部第一数据进行测试得到测试结果，并根据所述测试结果计算出所述目标奖励模型的误差率。

在一种可能的实现方式中，所述测试结果可以包括针对每个进行测试的所述第一数据的置信度差值P_r，所述置信度差值P_r用于表示所述目标奖励模型基于所述第一数据得到的该第一数据的首选响应和非首选响应之间的差异。其中，第一数据集中的各第一数据是通过人工反馈收集到的。

而由于第一数据是通过人工反馈收集的，在可以确定第一数据集中各第一数据能够真实反应人类的偏好、反馈的情况下，为了节省整体模型训练的时间、提高效率，可以在步骤S103中仅对第一数据集中的部分第一数据进行测试得到测试结果，其中每次测试所使用的部分第一数据可以相同也可以不同，本公开对此不作限制。

同样，由于在人工反馈时可能因为时间、注意力或疏忽而犯简单的错误，可能第一数据集中的第一数据有部分存在错误，不能真实反应人类的偏好、反馈，此时可以在步骤S103中对第一数据集中的全部第一数据进行测试得到测试结果，而后为了进一步完善第一数据集，所述方法还可以包括：针对所述第一数据集中进行测试的第一数据，对置信度差值P_r小于置信度阈值threshold₁的第一数据的首选响应和/或非首选响应进行修正，并与置信度差值P_r大于或等于置信度阈值threshold₁的第一数据组合，得到对应于当前第i个目标奖励模型的第一数据集D_ri。也即，除初始基于人类反馈而获得的用于奖励模型的第一数据集D，其余各第一数据集D_ri中的第一数据包括以下几种类型：置信度差值P_r始终大于或等于置信度阈值threshold₁的从未被修正过的第一数据、置信度差值P_r小于置信度阈值threshold₁在某一次或几次测试后被修正后的第一数据。

其中，为区分不同目标奖励模型的置信度差值P_r，第i个目标奖励模型的置信度差值用P_i表示。则，对于某条第一数据，如果当前得到的第i个目标奖励模型的测试结果中P_i≥threshold₁，说明第i个目标奖励模型得到的首选响应和非首选响应之间有较明显的差异，且首选响应较为符合人类正常的偏好，此时可以认定该条第一数据的质量较高，不需要人工、利用修正模型等方式进行修改。反之，如果第i个目标奖励模型的测试结果中P_i＜threshold₁，说明第i个目标奖励模型得到的首选响应和非首选响应之间的差异不大或者首选响应与人类正常的偏好之间差异较大，此时可以认定该条第一数据的质量不高，需要人工进行修改，该修改包括对第一数据的首选响应和/或非首选响应进行修正。其中，可以根据实际需要对置信度阈值threshold₁进行设置，本公开对此不作限制。

这样，基于人工反馈（初始的第一数据集D）和各目标奖励模型对第一数据集中的第一数据的测试结果进行对第一数据的首选响应和/或非首选响应不断修正，可以得到高质量的最新的第一数据集，该第一数据集可以能真实的反应人类的偏好、与人类反馈对齐。

在本实施例中，在完成奖励模型的第一次训练得到第一个目标奖励模型r₁之后继续执行步骤S103。在一些实施例中，可以根据各所述第一数据对应的置信度差值统计出所述目标奖励模型预测错误的错误数据量；而后根据所述错误数据量和所述目标奖励模型进行测试的第一数据的总数据量之间的比值，确定出所述目标奖励模型的误差率。

在一些实施例中，第i个目标奖励模型的误差率e_i可以通过下述公式计算：

其中，r_i代表第i个目标奖励模型。P(r_i(x_j)≠y_w)表示第j个第一数据x_j输入到r_i得到的输出不等于y_w的置信度差值。I(·)代表指示函数，它在括号中的表达式（也即r_i(x_j)≠y_w）成立时取值为1，否则取值为0，w_i,j代表第i个目标奖励模型计算误差率中第j个第一数据x_j对应的权重，N代表进行测试的第一数据的总数据量（在进行测试的第一数据为第一数据集中的全部第一数据的情况下N即为第一数据集的总数据量）。

在步骤S104中，在所述误差率大于或等于误差阈值threshold₂的情况下，利用所述第一数据集（此处为上述第一数据集D或最新的第一数据集D_ri）对所述目标奖励模型进行训练得到新的目标奖励模型并进行误差率计算，直至最新的目标奖励模型的误差率小于误差阈值threshold₂。这样，基于最新的第一数据集D_ri进行奖励模型的训练，使得通过该目标奖励模型得到的反馈结果基本能够与人类真实偏好对齐，目标奖励模型具有精度高等优点。

在本实施例中，如果第i个目标奖励模型r_i的误差率e_i≥threshold₂，则说明该第i个目标奖励模型r_i的效果还没有达到预期，因此需要利用第一数据集D或更新后的第一数据集D_ri在当前目标奖励模型r_i的基础上再次训练奖励模型并得到一个新的奖励模型r_i+1。

在一些实施例中，为了后续步骤S105的大语言模型训练，可以基于下述公式计算r_i的系数，即该第i个目标奖励模型的权重α_i，这样可以得到从第1个到第m个目标奖励模型中各目标奖励模型对应的权重{α_i，i=1,2…m}，m为目标奖励模型的总数量。

其中，还可以得到新的第m+1个目标奖励模型下各第一数据对应的权重：

W_m+1=（w_m+1,1，w_m+1,2…w_m+1,N）

其中，w_m+1,j（j=1,2…N）表示第m+1个目标奖励模型的第j个第一数据的权重，其表达式如下所示：

其中，P_m表示第m个目标奖励模型的置信度差值。Z_m是第m个目标奖励模型的规范化因子，目的是使所有第一数据的权重之和为1，Z_m的表达式如下：

其中，P_j表示第j个目标奖励模型的置信度差值。r_m(x_j)表示第j个第一数据x_j输入第m个目标奖励模型r_m得到的输出。

如果第m个目标奖励模型r_m的误差率e_m＜threshold₂，则说明该第m个目标奖励模型r_m的效果已经能够达到人类的预期，使用该第m个目标奖励模型得到的第一数据集D_rm可以认定质量较高且数据较多，该第一数据集D_rm数据量较多且绝大多数都能够与人类正常的偏好对齐。

此时，由于已经完成了m次迭代，得到了m个目标奖励模型，其中第1个到第m-1个目标奖励模型的误差率大于threshold₂，第m个目标奖励模型的误差率小于threshold₂。

在步骤S105中，利用训练得到的所有目标奖励模型和用于大语言模型的第二数据集对所述预训练语言模型进行训练，得到训练好的大语言模型。所述训练好的大语言模型用于在执行目标领域中任务的过程中基于用户输入向所述用户反馈输出结果，所述目标领域包括自然语言处理领域、人工智能领域中的至少一种。在一些实施例中，第二数据集可以为上述第一数据集（也即为无需修正的第一数据集D或者最新的第一数据集D_rm）、或者其他数据集、或者其他数据集与第一数据集的集合，本公开对此不作限制。

在一种可能的实现方式中，在第二数据集包括上述第一数据集（也即为无需修正的第一数据集D或者最新的第一数据集D_rm）的情况下，步骤S105可以包括：将所述第一数据集中各所述第一数据输入当前语言模型，得到预测结果，其中，所述当前大语言模型为所述预训练语言模型；确定该预测结果是否满足结束训练的预定条件；在确定所述预测结果不满足预定条件的情况下，基于各所述目标奖励模型对各所述预测结果的反馈进行模型策略更新，得到更新后大语言模型，以及将所述更新后大语言模型确定为新的当前大语言模型，并迭代执行将各所述第一数据输入当前大语言模型以得到预测结果及其之后的相应步骤。其中，在所述预测结果满足预定条件的情况下，停止训练，将所述当前大语言模型确定为训练好的大语言模型。其中，可以根据实际需要对预定条件进行设置，如可以为迭代次数超过预设值、预测结果的误差率小于误差阈值等等，本公开对此不作限制。

在该实现方式中，基于各所述目标奖励模型对各所述预测结果的反馈进行模型策略更新，得到更新后大语言模型，可以包括：利用各所述目标奖励模型对各所述预测结果进行评分，得到各所述目标奖励模型反馈的奖励信号；根据各所述目标奖励模型的所述奖励信号和对应的权重，采用预设算法更新当前大语言模型的参数，完成模型策略更新，得到更新后大语言模型；其中，所述预设算法包括强化学习算法。强化学习算法如策略梯度强化学习（Policy Gradient RL）算法或近端策略优化（Proximal Policy Optimization，PPO）算法，被用来调整模型参数，以最大化期望的奖励，本公开对此不作限制。

举例来说，如图2所示，针对下述问题1：

“输入Prompt（Prompt表示输入至大语言模型的指令或上下文，用于指导大语言模型生成特定的文本输出，为简明本文称为“提示词”）：

地球大气中最常见的三种气体是什么？

输出LM Output（LM Output是指大语言模型根据给定的Prompt生成的文本输出，为简明本文称为“输出”。这个“输出”是大语言模型根据Prompt中的信息和其内部的知识库生成的文本结果。在RLHF中，LM Output会被用来与人类提供的偏好反馈进行比较，以计算奖励信号，进而指导模型的训练过程）：

地球的大气是由地球引力所保留的一层气体，按干气量计算，最常见的气体是氮气，其次是氧气，第三多的是二氧化碳”

对于同一个提示词和输出对，m个目标奖励模型将会对输出进行打分得到不同的分数，由于m个目标奖励模型的效果不同，例如，对不符合预期的回答打分较高而对符合预期的回答打分较低，/>对符合预期的回答打分较高而对不符合预期的回答打分较低，因此需要使用不同的权重α₁、α₂…α_m去对分数进行调整得到m个目标奖励模型中各目标奖励模型分别对应的分数，例如-0.5、1.5…2.2，从而实现惩罚或者奖励。

在得到每个目标奖励模型的打分之后，利用PPO算法进行模型参数更新，实现基于奖励更新策略这一过程，PPO算法的优化目标如下所示：

其中，π^SFT表示SFT（监督微调训练，Supervised fine-tuning）模型；是需要调整的当前大语言模型，初始化是π^SFT；x是强化学习（RL，Reinforcement Learning）数据集中的问题，y是x通过当前大语言模型/>得到的答案，y=/>，其中初始化/>=π^SFT则y=π^SFT(x)；/>表示对问题x和答案y进行打分的目标奖励模型；/>(y|x)表示问题x通过/>得到答案y的概率；π^SFT(y|x)表示问题x通过π^SFT得到答案y的概率；x~D_pretrain表示x是来自大语言模型预训练阶段的数据；/>表示针对第一数据集D_ri的期望，/>表示针对x~D_pretrain的期望。β、γ表示调整系数。应理解，还可以采用任何其他合适的优化目标，本申请对此不做限制。

在RLHF算法中，大语言模型的任务是产生高质量的文本输出，目标奖励模型将根据反馈来分配奖励信号。在每次训练迭代中，都会计算目标奖励模型返回的奖励信号，将其作为PPO算法的奖励反馈，并使用奖励信号来更新大语言模型的策略（也即更新模型参数），以便在下一次大语言模型生成文本输出时产生更好的结果。通过不断地迭代这个过程，可以逐步优化大语言模型的性能，使其在生成文本时更加准确和自然，直至完成模型训练。

如图3所示，本公开实施例还提供了一种大语言模型训练装置，所述装置包括：

数据集获取模块41，用于获取基于人类反馈而获得的用于奖励模型的第一数据集，所述第一数据集中包括手动标记的多个第一数据；

第一训练模块42，用于利用所述第一数据集对预训练语言模型进行训练，得到目标奖励模型；

误差率计算模块43，用于利用所述目标奖励模型对所述第一数据集中的部分或全部第一数据进行测试得到测试结果，并根据所述测试结果计算出所述目标奖励模型的误差率；

第二训练模块44，用于在所述误差率大于或等于误差阈值的情况下，利用所述第一数据集对所述目标奖励模型进行训练得到新的目标奖励模型并进行误差率计算，直至最新的目标奖励模型的误差率小于误差阈值；

第三训练模块45，用于利用训练得到的所有目标奖励模型和用于大语言模型的第二数据集对所述预训练语言模型进行训练，得到训练好的大语言模型，所述训练好的大语言模型用于在执行目标领域中任务的过程中基于用户输入向所述用户反馈输出结果，所述目标领域包括自然语言处理领域、人工智能领域中的至少一种。

其中，所述装置还包括：

在一种可能的实现方式中，所述误差率计算模块，包括：

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

需要说明的是，尽管以上述实施例作为示例介绍了大语言模型训练方法及装置如上，但本领域技术人员能够理解，本公开应不限于此。事实上，用户完全可根据个人喜好和/或实际应用场景灵活设定各步骤、模块，只要符合本公开的技术方案即可。

本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。

本公开实施例还提出一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为在执行所述存储器存储的指令时，实现上述方法。

本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述方法。

图4是根据一示例性实施例示出的一种用于大语言模型训练的装置1900的框图。例如，装置1900可以被提供为一服务器或终端设备。参照图4，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出接口1958（I/O接口）。装置1900可以操作基于存储在存储器1932的操作系统，例如Windows Server^TM，MacOS X^TM，Unix^TM, Linux^TM，FreeBSD^TM或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由装置1900的处理组件1922执行以完成上述方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种大语言模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一数据以三联体方式表示，所述三联体中包括输入、针对所述输入的首选响应和非首选响应，所述测试结果包括针对每个进行测试的第一数据的置信度差值，所述置信度差值用于表示所述目标奖励模型基于所述第一数据得到的该第一数据的首选响应和非首选响应之间的差异，

其中，所述方法还包括：

针对所述第一数据集中进行测试的第一数据，对置信度差值小于置信度阈值的第一数据的首选响应和/或非首选响应进行修正。

3.根据权利要求2所述的方法，其特征在于，根据所述测试结果计算出所述目标奖励模型的误差率，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述第二数据集包括所述第一数据集，利用训练得到的所有目标奖励模型和用于大语言模型的第二数据集对所述预训练语言模型进行训练，得到训练好的大语言模型，包括：

5.根据权利要求4所述的方法，其特征在于，基于各所述目标奖励模型对各所述预测结果的反馈进行模型策略更新，得到更新后大语言模型，包括：

6.一种大语言模型训练装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述第一数据以三联体方式表示，所述三联体中包括输入、针对所述输入的首选响应和非首选响应，所述测试结果包括针对每个进行测试的第一数据的置信度差值，所述置信度差值用于表示所述目标奖励模型基于所述第一数据得到的该第一数据的首选响应和非首选响应之间的差异，

其中，所述装置还包括：

8.根据权利要求7所述的装置，其特征在于，所述误差率计算模块，包括：

9.根据权利要求6或7所述的装置，其特征在于，所述第二数据集包括所述第一数据集，利用训练得到的所有目标奖励模型和用于大语言模型的第二数据集对所述预训练语言模型训练，得到训练好的大语言模型，包括：

10.根据权利要求9所述的装置，其特征在于，基于各所述目标奖励模型对各所述预测结果的反馈进行模型策略更新，得到更新后大语言模型，包括：

11.一种大语言模型训练装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为在执行所述存储器存储的指令时，实现权利要求1至5中任意一项所述的方法。

12.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至5中任意一项所述的方法。