LLMs 数据收集#

Argilla Feedback 旨在支持 大型语言模型 (LLM) 项目中的定制化和多方面反馈。作为 LLM 微调和人类反馈强化学习 (RLHF) 的关键工具,Argilla Feedback 提供了一个灵活的平台,这对于针对独特用例定制的 LLM 的评估和微调阶段至关重要。下图概括了这些指南中详述的阶段

LLM fine-tuning stages

为了获得实践性的入门介绍,你可以直接深入我们的操作指南或示例部分。或者,开始探索以下指南之一

RLHF 数据收集

LLMs 和 RLHF 数据收集简介。

收集演示数据

监督式和指令微调的数据收集简介。

收集比较数据

奖励模型的数据收集简介。