🧐 选择数据集类型#

常见问题解答#

什么?不同的数据集?

首先,Argilla 提供两代数据集。新的 FeedbackDataset 和旧的数据集,称为 DatasetForTextClassificationDatasetForTokenClassificationDatasetForText2Text

为什么新的 FeedbackDataset

简而言之,FeedbackDataset 是一个完全可配置的数据集,可用于任何 NLP 任务,包括以 LLM 为中心的任务。旧的数据集专注于单个 NLP 任务。因此,FeedbackDataset 更加灵活,可以用于更广泛的用例,包括旧数据集的所有 NLP 任务。旧的数据集在某些方面功能更丰富,但没有引入新功能,另一方面,FeedbackDataset 目前在某些方面功能较少,但新功能将随着时间的推移积极添加。

旧的数据集会被弃用吗?

在可预见的未来,我们将继续维护旧的数据集,但我们建议使用新的 FeedbackDataset,它将成为 Argilla 2.0 的核心。

我应该在什么时候使用旧的数据集?

目前,当进行基本的文本分类或 Token 分类时,旧的数据集更好。它们为 metadata-filtersbulk-annotationweak supervisionactive learningvector search 提供完全支持。

我应该在什么时候更好地使用 FeedbackDataset

当您需要执行更 复杂 任务 时,FeedbackDataset 更好,这些任务需要在一个 统一 UI 中表示。这对于 LLM 工作流程非常有用,在这些工作流程中,您需要在同一记录上执行 多个 任务FeedbackDataset 还支持每个记录 多个 标注者可自定义 任务 数据库 同步。但是,它尚不支持 weak supervisionactive learning

旧数据集的所有酷炫功能何时会在 FeedbackDataset 中可用?

我们正在努力!我们将随着时间的推移向 FeedbackDataset 添加新功能。如果您需要特定功能,请在 GitHub 或 Slack 上告知我们,以便我们优先考虑它。

表格比较#

NLP 任务#

任务 / 数据集

FeedbackDataset

旧数据集

文本分类

✔️

✔️

Token 分类

✔️

✔️

摘要

✔️

✔️

翻译

✔️

✔️

NLI

✔️

✔️

句子相似度

✔️

问答

✔️

RLHF (SFT)

✔️

RLHF (RM)

✔️

RLHF (PPO)

✔️

RLHF (DPO)

✔️

RAG

✔️

图像支持

✔️

重叠跨度

✔️

以及更多

✔️

标注工作流#

任务 / 数据集

FeedbackDataset

旧数据集

批量标注

✔️

✔️

向量搜索

✔️

✔️

主动学习

✔️

弱监督

✔️

用户和团队管理#

功能

FeedbackDataset

旧数据集

每个记录多个标注者

✔️

一个 UI 中的多任务

✔️

与数据库同步

✔️

UI 排序、筛选和查询#

功能

FeedbackDataset

旧数据集

记录状态过滤器

✔️

✔️

文本查询

✔️

✔️

元数据过滤器

✔️

✔️

排序

✔️

✔️

预测过滤器

✔️

✔️

标注过滤器

✔️

✔️

相似性搜索

✔️

✔️