🧐 选择数据集类型#
常见问题解答#
什么?不同的数据集?
首先,Argilla 提供两代数据集。新的 FeedbackDataset
和旧的数据集,称为 DatasetForTextClassification
、DatasetForTokenClassification
和 DatasetForText2Text
。
为什么新的 FeedbackDataset
?
简而言之,FeedbackDataset
是一个完全可配置的数据集,可用于任何 NLP 任务,包括以 LLM 为中心的任务。旧的数据集专注于单个 NLP 任务。因此,FeedbackDataset
更加灵活,可以用于更广泛的用例,包括旧数据集的所有 NLP 任务。旧的数据集在某些方面功能更丰富,但没有引入新功能,另一方面,FeedbackDataset
目前在某些方面功能较少,但新功能将随着时间的推移积极添加。
旧的数据集会被弃用吗?
在可预见的未来,我们将继续维护旧的数据集,但我们建议使用新的 FeedbackDataset
,它将成为 Argilla 2.0 的核心。
我应该在什么时候使用旧的数据集?
目前,当进行基本的文本分类或 Token 分类时,旧的数据集更好。它们为 metadata-filters
、bulk-annotation
、weak supervision
、active learning
和 vector search
提供完全支持。
我应该在什么时候更好地使用 FeedbackDataset
?
当您需要执行更 复杂 任务
时,FeedbackDataset
更好,这些任务需要在一个 统一 的 UI
中表示。这对于 LLM
工作流程非常有用,在这些工作流程中,您需要在同一记录上执行 多个 任务
。FeedbackDataset
还支持每个记录 多个 标注者
、可自定义 任务
和 与 数据库 同步
。但是,它尚不支持 weak supervision
或 active learning
。
旧数据集的所有酷炫功能何时会在 FeedbackDataset
中可用?
我们正在努力!我们将随着时间的推移向 FeedbackDataset
添加新功能。如果您需要特定功能,请在 GitHub 或 Slack 上告知我们,以便我们优先考虑它。
表格比较#
NLP 任务#
任务 / 数据集 |
FeedbackDataset |
旧数据集 |
---|---|---|
文本分类 |
✔️ |
✔️ |
Token 分类 |
✔️ |
✔️ |
摘要 |
✔️ |
✔️ |
翻译 |
✔️ |
✔️ |
NLI |
✔️ |
✔️ |
句子相似度 |
✔️ |
|
问答 |
✔️ |
|
RLHF (SFT) |
✔️ |
|
RLHF (RM) |
✔️ |
|
RLHF (PPO) |
✔️ |
|
RLHF (DPO) |
✔️ |
|
RAG |
✔️ |
|
图像支持 |
✔️ |
|
重叠跨度 |
✔️ |
|
以及更多 |
✔️ |
标注工作流#
任务 / 数据集 |
FeedbackDataset |
旧数据集 |
---|---|---|
批量标注 |
✔️ |
✔️ |
向量搜索 |
✔️ |
✔️ |
主动学习 |
✔️ |
|
弱监督 |
✔️ |
用户和团队管理#
功能 |
FeedbackDataset |
旧数据集 |
---|---|---|
每个记录多个标注者 |
✔️ |
|
一个 UI 中的多任务 |
✔️ |
|
与数据库同步 |
✔️ |
UI 排序、筛选和查询#
功能 |
FeedbackDataset |
旧数据集 |
---|---|---|
记录状态过滤器 |
✔️ |
✔️ |
文本查询 |
✔️ |
✔️ |
元数据过滤器 |
✔️ |
✔️ |
排序 |
✔️ |
✔️ |
预测过滤器 |
✔️ |
✔️ |
标注过滤器 |
✔️ |
✔️ |
相似性搜索 |
✔️ |
✔️ |