🧐 选择数据集类型#
常见问题解答#
什么?不同的数据集?
首先,Argilla 提供两代数据集。新的 FeedbackDataset 和旧的数据集,称为 DatasetForTextClassification、DatasetForTokenClassification 和 DatasetForText2Text。
为什么新的 FeedbackDataset?
简而言之,FeedbackDataset 是一个完全可配置的数据集,可用于任何 NLP 任务,包括以 LLM 为中心的任务。旧的数据集专注于单个 NLP 任务。因此,FeedbackDataset 更加灵活,可以用于更广泛的用例,包括旧数据集的所有 NLP 任务。旧的数据集在某些方面功能更丰富,但没有引入新功能,另一方面,FeedbackDataset 目前在某些方面功能较少,但新功能将随着时间的推移积极添加。
旧的数据集会被弃用吗?
在可预见的未来,我们将继续维护旧的数据集,但我们建议使用新的 FeedbackDataset,它将成为 Argilla 2.0 的核心。
我应该在什么时候使用旧的数据集?
目前,当进行基本的文本分类或 Token 分类时,旧的数据集更好。它们为 metadata-filters、bulk-annotation、weak supervision、active learning 和 vector search 提供完全支持。
我应该在什么时候更好地使用 FeedbackDataset?
当您需要执行更 复杂 任务 时,FeedbackDataset 更好,这些任务需要在一个 统一 的 UI 中表示。这对于 LLM 工作流程非常有用,在这些工作流程中,您需要在同一记录上执行 多个 任务。FeedbackDataset 还支持每个记录 多个 标注者、可自定义 任务 和 与 数据库 同步。但是,它尚不支持 weak supervision 或 active learning。
旧数据集的所有酷炫功能何时会在 FeedbackDataset 中可用?
我们正在努力!我们将随着时间的推移向 FeedbackDataset 添加新功能。如果您需要特定功能,请在 GitHub 或 Slack 上告知我们,以便我们优先考虑它。
表格比较#
NLP 任务#
任务 / 数据集 |
FeedbackDataset |
旧数据集 |
|---|---|---|
文本分类 |
✔️ |
✔️ |
Token 分类 |
✔️ |
✔️ |
摘要 |
✔️ |
✔️ |
翻译 |
✔️ |
✔️ |
NLI |
✔️ |
✔️ |
句子相似度 |
✔️ |
|
问答 |
✔️ |
|
RLHF (SFT) |
✔️ |
|
RLHF (RM) |
✔️ |
|
RLHF (PPO) |
✔️ |
|
RLHF (DPO) |
✔️ |
|
RAG |
✔️ |
|
图像支持 |
✔️ |
|
重叠跨度 |
✔️ |
|
以及更多 |
✔️ |
标注工作流#
任务 / 数据集 |
FeedbackDataset |
旧数据集 |
|---|---|---|
批量标注 |
✔️ |
✔️ |
向量搜索 |
✔️ |
✔️ |
主动学习 |
✔️ |
|
弱监督 |
✔️ |
用户和团队管理#
功能 |
FeedbackDataset |
旧数据集 |
|---|---|---|
每个记录多个标注者 |
✔️ |
|
一个 UI 中的多任务 |
✔️ |
|
与数据库同步 |
✔️ |
UI 排序、筛选和查询#
功能 |
FeedbackDataset |
旧数据集 |
|---|---|---|
记录状态过滤器 |
✔️ |
✔️ |
文本查询 |
✔️ |
✔️ |
元数据过滤器 |
✔️ |
✔️ |
排序 |
✔️ |
✔️ |
预测过滤器 |
✔️ |
✔️ |
标注过滤器 |
✔️ |
✔️ |
相似性搜索 |
✔️ |
✔️ |