收集 RLHF 数据#

Argilla Feedback 在 LLM 微调过程的三个关键阶段提供帮助。第一个阶段是收集演示数据,用于大型语言模型的监督微调。这个阶段虽然是 RLHF 过程的一部分,但也独立运作。在监督微调中,模型从人工指导的示例中学习,引导它们并提高其能力。

Argilla Feedback 被证明有益的第二个阶段是收集比较数据,这是训练 RLHF 奖励模型的关键要素。

同样,Argilla Feedback 可用于为最后阶段编写或选择提示:强化学习。此收集过程与第一阶段非常相似,只是我们不要求用户编写演示。

下图显示了训练和微调 LLM 的阶段。从上到下,它显示了每个阶段所需的数据(注意使用人类反馈收集的数据的颜色)、阶段(即,预训练、监督微调、奖励建模和强化学习),以及最后在每个阶段创建的模型。Argilla Feedback 使在预训练阶段之后的每个步骤中无缝收集人类反馈。

LLM fine-tuning stages

注意

本指南使用 InstructGPT 论文和 Chip Huyen 令人惊叹的 RLHF 介绍 中的术语。上图是 Chip Huyen 图的改编。

为了理解 Argilla Feedback 的工作原理,让我们深入探讨收集演示数据收集比较数据阶段。

收集演示数据#

在训练大型语言模型时,演示数据的收集起着重要作用。这些数据由提示和演示组成,用于监督微调,模型在其中学习根据人工提供的示例生成对提示的响应。此阶段的其他常用名称是指令调优行为克隆。尽管这通常被认为是劳动密集型阶段,但最近的研究,如 LIMA 工作,表明策划一小组 1,000 个高质量和多样化的示例可以有效地教会模型遵循指令。Argilla Feedback 旨在简化此过程,并在组织内的许多标注员之间分配此过程。

考虑这个例子。你的公司可以访问提示数据库,可能来自像 ShareGPT 这样的现有数据库,或来自你的内部资源,你的目标是微调模型以准确响应这些提示。使用 Argilla Feedback,你可以有效地将提示分发给人工标注员,然后由他们编写响应,就像他们是模型一样。这组模型响应成为监督微调过程的关键组成部分。

提示

你可以向你的 Argilla 实例和数据集添加无限的用户,因此 Argilla 可以无缝地用于在组织内的数百名标注员或专家之间分配工作负载。类似的工作包括 Databricks 的 Dolly 或 OpenAssistant。如果你希望获得设置此类工作的帮助,请联系我们,我们将很乐意提供帮助。

为了可视化监督微调的预期效果,让我们看两个由 LLM 生成的示例。首先,模型 Falcon-7B 未针对以下指令进行微调

提示

完成

为销售电子邮件撰写跟进。电子邮件

我只是好奇你是否对我昨天在电话中与你讨论的项目有任何疑问。请让我知道我是否可以为你提供任何其他帮助,或任何进一步的细节,以帮助你推进你的项目。再次感谢你的时间,祝你周末愉快,-Sarah

以及相同的模型在指令调优之后,Falcon-7B-instruct 模型

提示

完成

为销售电子邮件撰写跟进

尊敬的 [客户姓名],

感谢你上周从我们这里购买 [产品名称]。我们希望你一直喜欢使用它!

如果你对你的购买有任何问题或反馈,请随时告诉我们。我们总是乐于助人。

最好的问候,
[销售团队]

此外,Argilla Feedback 也可用于收集提示。在这种情况下,你不仅会要求标注员提供对给定提示的响应,还会要求他们自己编写提示。这种双重功能增强了数据集的多样性,并可以带来更强大的模型性能。

此外,你可以选择收集关于提示的额外反馈。例如,你可以要求标注员对每个提示的清晰度或相关性进行评分,或以自然语言提供一般性评论。这种辅助信息对于改进你的提示以及指导评估和训练过程可能非常有价值。

提示

除了指令调优之外,策划演示数据是使模型与某些价值观对齐并降低其毒性的重要步骤。一项重要的相关工作是“使用面向价值的数据集调整语言模型以适应社会 (PALMS) 的过程”。在这项工作中,研究人员通过微调策划的 <100 个提示和价值观对齐的响应示例的数据集来改进语言模型行为。如果你希望获得设置此类工作的帮助,请联系我们,我们将很乐意提供帮助。

收集比较数据#

OpenAI 的 ChatGPT 或 Anthropic 的 Claude 成功的关键在于第三阶段的应用。第三阶段使用强化学习来引导模型并使其与人类偏好对齐。此阶段最著名的技术称为 RLHF。

注意

还有其他可能互补的方法,如来自 AI 反馈的强化学习,但我们坚信,在循环中使用人类微调 LLM 是构建稳健、负责任和安全模型的关键。

RLHF 包括两个主要步骤

  1. 训练奖励模型。此模型的目的是为人类更喜欢的响应分配更高的分数。

  2. 使用 RL 优化 LLM 以生成奖励模型评分高的响应。

奖励模型旨在为由提示和响应组成的对分配分数。但是,比较数据收集过程的运作方式略有不同。通常,比较数据收集需要人类对特定提示的多个响应进行排名,从最佳到最差列出它们

考虑这个例子。你的公司可以访问一个指令遵循模型,在经历了监督微调阶段之后,或者重用一个开源指令遵循模型。经过内部评估过程后,模型显示出不希望的行为,例如生成虚构的事实(有时称为“幻觉”)、有害内容或只是无益的响应。这是与人类偏好对齐的第二阶段变得相关的地方。

提示

你可以使用 Argilla Feedback 进行内部评估过程,方法是注册与模型的交互并要求标注员对响应的质量进行评分。如果你希望获得设置此类工作的帮助,请联系我们,我们将很乐意帮助你进行设置。

使用 Argilla,你可以无缝地创建反馈收集程序。这涉及要求标注员对特定提示的多个模型响应进行排名。在此过程中收集的比较数据可用于训练奖励模型。此奖励模型有两个关键用途

  1. 评估提示-响应对的质量,

  2. 通过强化学习 (RL) 增强模型。

在接下来的章节中,我们将讨论如何使用 Argilla 收集演示数据和比较数据。