🧐 选择数据集类型#

常见问题解答#

什么？不同的数据集？

首先，Argilla 提供两代数据集。新的 FeedbackDataset 和旧的数据集，称为 DatasetForTextClassification、DatasetForTokenClassification 和 DatasetForText2Text。

为什么新的 FeedbackDataset？

简而言之，FeedbackDataset 是一个完全可配置的数据集，可用于任何 NLP 任务，包括以 LLM 为中心的任务。旧的数据集专注于单个 NLP 任务。因此，FeedbackDataset 更加灵活，可以用于更广泛的用例，包括旧数据集的所有 NLP 任务。旧的数据集在某些方面功能更丰富，但没有引入新功能，另一方面，FeedbackDataset 目前在某些方面功能较少，但新功能将随着时间的推移积极添加。

旧的数据集会被弃用吗？

在可预见的未来，我们将继续维护旧的数据集，但我们建议使用新的 FeedbackDataset，它将成为 Argilla 2.0 的核心。

我应该在什么时候使用旧的数据集？

目前，当进行基本的文本分类或 Token 分类时，旧的数据集更好。它们为 metadata-filters、bulk-annotation、weak supervision、active learning 和 vector search 提供完全支持。

我应该在什么时候更好地使用 FeedbackDataset？

当您需要执行更 复杂任务 时，FeedbackDataset 更好，这些任务需要在一个 统一的 UI 中表示。这对于 LLM 工作流程非常有用，在这些工作流程中，您需要在同一记录上执行 多个任务。FeedbackDataset 还支持每个记录 多个标注者、可自定义任务 和 与数据库同步。但是，它尚不支持 weak supervision 或 active learning。

旧数据集的所有酷炫功能何时会在 FeedbackDataset 中可用？

我们正在努力！我们将随着时间的推移向 FeedbackDataset 添加新功能。如果您需要特定功能，请在 GitHub 或 Slack 上告知我们，以便我们优先考虑它。

表格比较#

NLP 任务#

任务 / 数据集	FeedbackDataset	旧数据集
文本分类	✔️	✔️
Token 分类	✔️	✔️
摘要	✔️	✔️
翻译	✔️	✔️
NLI	✔️	✔️
句子相似度	✔️
问答	✔️
RLHF (SFT)	✔️
RLHF (RM)	✔️
RLHF (PPO)	✔️
RLHF (DPO)	✔️
RAG	✔️
图像支持	✔️
重叠跨度	✔️
以及更多	✔️

标注工作流#

任务 / 数据集	FeedbackDataset	旧数据集
批量标注	✔️	✔️
向量搜索	✔️	✔️
主动学习		✔️
弱监督		✔️

用户和团队管理#

功能	FeedbackDataset	旧数据集
每个记录多个标注者	✔️
一个 UI 中的多任务	✔️
与数据库同步	✔️

UI 排序、筛选和查询#

功能	FeedbackDataset	旧数据集
记录状态过滤器	✔️	✔️
文本查询	✔️	✔️
元数据过滤器	✔️	✔️
排序	✔️	✔️
预测过滤器	✔️	✔️
标注过滤器	✔️	✔️
相似性搜索	✔️	✔️