✍️ 注释数据集#
反馈数据集#
注意
本节中介绍的数据集类是 FeedbackDataset
。这个完全可配置的数据集将取代 Argilla 2.0 中的 DatasetForTextClassification
、DatasetForTokenClassification
和 DatasetForText2Text
。不确定使用哪个数据集?请查看我们关于选择数据集的部分。
将 FeedbackDataset
推送到 Argilla 后,如创建数据集中所述,您可以通过 Argilla UI 开始对其进行注释。
当您在 UI 中打开数据集时,默认情况下您将看到具有 Pending
回复的记录,即仍然没有回复(注释)的记录,在单条记录视图中。在左侧,您可以找到要注释的记录,右侧是包含要回答问题的表单。您可以使用底部栏中的 Prev
和 Next
按钮浏览记录。您可以使用搜索栏和过滤器 - 如 🔎 筛选和查询数据集页面 中所述 - 使过程更快更高效。
提示
重要的是,数据集对各种内容多样的记录都有注释。尽量不要将您的注释限制在单个搜索中检索到的记录或内容非常相似的记录中。
注意
如果您在搜索引擎方面遇到问题,您可能需要重新索引数据集,如此处所述。
我们强烈建议您在开始注释之前阅读注释指南(如果有)。如果已指定指南,您可以在数据集设置页面上找到它们,或者在开始注释之前,单击反馈面板右上角的“阅读注释指南”按钮。
在注释视图中,您将能够为给定的问题提供回复/注释。此外,如果问题有描述,您会在其旁边找到一个信息图标。您可以单击它以查看有关问题本身的更多信息。
以下是您可能会发现的不同类型问题的描述
从标签集合中选择单个标签。
从标签选择中选择所有适用的标签。
对值集合进行排序。请注意,您需要对所有值进行排序才能完成对此问题的回复,这意味着不能留下未分配的值。允许并列。
从值列表中选择单个值。
在链接到跨度问题的字段中选择文本片段并应用标签。
在文本区域内提供文本回复。
某些问题可能还包括建议的回复。这些问题将标有此图标 ✨,您将看到建议作为预填充的回复。如果您同意该建议,则无需执行任何操作;如果您不进行任何修改,该建议将在您提交回复后保存为您的回复。如果建议不太正确,您只需进行必要的修改即可。
此外,您可能会发现标记为必填的问题。这些问题将标有红色星号 (*),并且您将无法提交回复,直到您为这些问题提供回复为止。
一旦所有必填问题都有回复,Submit
按钮将启用,您将能够提交您对给定记录问题的回复。如果您希望在提交前保存部分或完整回复以供审核,您可以通过单击 Save as draft
按钮来保存它。如果您决定不为记录提供回复,您可以移动到下一条记录或使用 Discard
按钮将其丢弃。
如果您需要查看您的草稿、已提交或已丢弃的回复,您可以选择您需要的队列。从那里,您可以修改、保存草稿、提交或丢弃回复。
您可以通过单击侧边栏中的 Progress
图标来跟踪您的进度以及 Pending
、Draft
、Submitted
和 Discarded
回复的数量。
快捷键#
您可以使用以下键盘快捷键来加快注释速度
操作 |
按键 |
---|---|
激活表单 |
|
在问题之间移动 |
|
选择和取消选择标签 |
|
在标签或排序选项之间移动 |
|
选择评分和排名 |
|
将跨度拟合到字符选择 |
按住 |
激活文本区域 |
|
退出文本区域 |
|
丢弃 |
|
保存草稿 (Mac os) |
|
保存草稿 (其他) |
|
提交 |
|
在页面之间移动 |
|
焦点视图与批量视图#
在 Argilla 的反馈任务数据集中,您可以通过两种方式注释和处理记录
焦点视图:您一次只能查看、回复和对一条记录执行操作。这更适合于需要仔细单独检查后才能回复的记录。
批量视图:您可以在列表中查看多条记录,以便一次回复和对多条记录执行操作。这对于可以对具有相似特征的许多记录执行的操作很有用,例如,将相同的标签应用于相似性搜索的结果,丢弃特定语言的所有记录或保存/提交建议分数超过安全阈值的记录。
提示
使用 查找相似 功能、其他过滤器(建议、元数据等)和排序来获取记录列表,在该列表中可以安全地执行批量操作和标注。了解有关如何使用过滤器的更多信息,请点击 此处。
注意
跨度问题 无法从批量视图中回答。您需要切换到焦点视图来回答它们。
如果您的数据集中有跨度问题,您始终可以批量回答其他问题并将您的回复保存为草稿。稍后,您将能够在草稿队列的焦点视图中回答跨度问题。
在 待处理 记录的队列中,您可以从焦点视图更改为批量视图。进入批量视图后,您可以展开或折叠记录 - 即查看页面中所有记录的完整长度或设置固定高度 - 并选择您希望每页看到的记录数。
要选择或取消选择页面中的所有记录,请单击记录列表上方的复选框。要选择或取消选择特定记录,请单击单个记录卡片内的复选框。当您在批量视图中使用过滤器且结果高于页面中可见的记录但低于 1000 时,您还可以在单击复选框后选择所有结果。您可以通过单击取消按钮来取消此选择。
选择记录后,选择适用于所有选定记录的回复(如果有),然后执行所需的操作:丢弃、保存为草稿 甚至 提交。请注意,只有在所有必填问题都已回答后,您才能提交记录。
其他数据集#
注意
本节中介绍的记录类对应于三个数据集:DatasetForTextClassification
、DatasetForTokenClassification
和 DatasetForText2Text
。这些将在 Argilla 2.0 中弃用,并由完全可配置的 FeedbackDataset
类取代。不确定使用哪个数据集?请查看我们关于选择数据集的部分。
注释和验证预测#
Argilla UI 提供了一个简单直观的界面,用于注释记录。每个任务都提供了各种小功能和交互,以优化注释,例如模型预测,人们可以简单地验证这些预测,假设它们在您的数据集上运行良好。
文本分类#
对于此任务,您只需要选择最能描述记录的标签。预测以百分比形式显示在标签标签中,并用较深的色调标记。
如果数据集设置为单标签文本分类,您可以通过单击所需的标签来注释记录,并且记录将自动验证。如果记录包含预测,您可以改为验证记录,并且得分最高的标签将自动选择。要删除已验证的标签,只需再次单击它即可。
要注释多标签文本分类任务中的记录,请单击一个或多个标签。选择标签后,其状态将显示为待处理。如果您想放弃更改并恢复记录的先前状态,请单击重置,或者单击验证以将您的注释保存到数据集中。然后,状态将在记录卡片的左上角更改为已验证。
如果 多标签 记录包含预测,并且您只想验证预测的标签,请单击验证,所有百分比高于 50% 的标签将自动选择。您也可以使用清除按钮删除所有注释,或单击丢弃从数据集中丢弃记录。
您也可以使用清除按钮删除所有注释,或单击丢弃从数据集中丢弃记录。
注意
当数据集包含大量标签(10 个以上)时,我们建议逐个查看记录卡片(从页脚中选择每页 1 条记录),并使用箭头键在记录之间快速移动。
Token 分类#
对于 token 分类数据集,您可以突出显示文本中的单词(token)并使用标签对其进行注释。在底层,突出显示利用了 Token 分类数据模型 中的 tokens
信息。对于此任务,预测显示为下划线。您可以通过按验证按钮来验证预测(或缺少预测)。
要删除特定标签,请将鼠标悬停在突出显示上,然后按 X 按钮或直接双击彩色区域。您也可以单击清除按钮以删除记录中的所有注释。
在修改记录后,无论是添加还是删除注释,其状态都将更改为待处理。当您完成对整个记录的注释后,单击验证以保存更改。状态将在记录卡片的左上角更改为已验证。或者,您可以使用重置按钮放弃您的更改并恢复记录的先前状态。如果您想从数据集中丢弃记录,请单击丢弃。
Text2Text#
对于 Text2Text 数据集,有一个文本框可用于草拟或编辑注释。如果记录有一个或多个预测,则得分最高的预测将预先填充。您可以通过单击验证按钮来验证预测,或者通过直接在文本框中进行更改来编辑文本。如果您进行任何更改,状态将更改为待处理,您需要按 shift+Enter 或单击验证按钮来保存更改。验证后,仍然可以在记录卡片右侧的预测面板中访问预测。
或者,您可以使用重置按钮丢弃您的更改并恢复到记录的先前状态,或者单击清除按钮清空文本字段。如果您想从数据集中丢弃记录,请单击丢弃。
搜索和筛选记录#
过滤器#
Argilla UI 提供了一组过滤器,可帮助您快速方便地浏览记录。例如,您可以按记录的预测、特定元数据筛选记录,或选择仅查看缺少注释的记录。过滤器在 UI 的所有模式中都可用。
注意
并非下面列出的所有过滤器都适用于所有任务。
预测过滤器#
此过滤器允许您根据记录的预测来筛选记录
预测为:按其预测标签筛选记录。
预测正确:筛选预测与注释匹配或不匹配的记录。
得分:根据记录预测的得分筛选记录。
预测者:按预测代理筛选记录。
注释过滤器#
此过滤器允许您根据记录的注释来筛选记录
状态过滤器#
此过滤器允许您根据记录的状态来筛选记录
默认:没有任何注释或编辑的记录。
已验证:带有已验证注释的记录。
已编辑:带有注释但仍未验证的记录。
元数据过滤器#
此过滤器允许您根据记录的元数据来筛选记录。
提示
嵌套元数据将被展平,键将用点连接。
排序记录#
使用此组件,您可以按各种参数对记录进行排序,例如预测、注释或其元数据。
搜索#
Argilla 中的搜索栏由 Elasticsearch 强大的 查询字符串语法驱动。
它允许您执行单词和短语的简单模糊搜索,或充分利用 Argilla 数据模型的复杂查询。
查看我们的筛选和查询数据集指南,以获取有关如何在 Argilla UI 中搜索的全面指南。
语义搜索#
此功能使您能够在探索或注释记录时查找相似的记录。这利用语义搜索来查找“语义上”相似的记录。为了使用此功能,您的数据集记录应包含向量,这些向量可以在将数据集记录到 Argilla 中时关联。
批量标注和操作#
对于所有任务,您都可以使用 批量操作。您可以单击每个卡片左上角的选择框逐个选择记录,也可以使用搜索栏下方的全局选择框,这将选择页面上显示的所有记录。然后,您可以使用全局选择框旁边的图标验证和丢弃选定的记录。对于多标签文本分类和 token 分类任务,您还可以批量清除和重置。
对于文本分类任务,您还可以批量注释选定的记录,只需单击全局选择框旁边的铅笔图标并从列表中选择标签即可。
在多标签文本分类中,您可以通过单击标签旁边的叉号从选定的记录中删除标签。您还可以通过单击标签按钮将部分使用的标签分配给整个选择。完成选择后,单击选择以将注释应用于所有选定的记录。要完成验证,请单击“验证”图标。
在单标签文本分类中,选择标签后无需验证。
弱标注#
Argilla UI 有一个专用模式来查找良好的 启发式规则,通常也称为标注函数,用于 弱监督 工作流。如我们的 指南 和 教程 中所示,这些规则允许您以半自动方式快速使用嘈杂的标签注释您的数据。
您可以通过 数据集页面 的侧边栏访问弱标注模式。
注意
弱标注模式仅适用于文本分类数据集。
查询加标签#
Argilla 中的规则基本上是将选定的一组标签应用于与给定查询匹配的记录列表,因此您只需要查询加标签。在搜索栏中输入查询并选择一个或多个标签后,您将在右侧看到该规则的一些指标,并在下面的记录列表中看到查询的匹配项。
警告
过滤器不是规则的一部分,而是应用于记录列表。这意味着,如果您设置了过滤器,则记录列表不一定对应于受规则影响的记录。
如果您对指标和/或匹配的记录列表感到满意,您可以通过单击“保存规则”来保存规则。这样,它将作为当前数据集的一部分存储,并且可以通过管理规则按钮访问。
提示
如果您想向可用标签列表添加标签,您可以转到您的数据集设置页面并在那里创建新标签。
规则指标#
在输入查询并选择标签后,Argilla 会为您提供有关规则的一些关键指标。某些指标仅在您的数据集也包含注释记录时才可用。
覆盖率:规则标注的记录百分比。
注释覆盖率:规则标注的注释记录百分比。
正确/不正确:规则根据注释正确/不正确预测的标签数量。
精确率:规则根据注释给出的正确标签的百分比。
注意
对于多标签分类任务,我们仅将错误预测的标签计为不正确,而不计算规则遗漏的标签。
总体规则指标#
从右侧边栏,您可以访问 总体规则指标。在这里,您将找到聚合指标,例如覆盖率、平均精确率以及正确/不正确预测的标签总数。您还可以找到已保存的规则数量以及它们在标签方面的分布概述。
提示
如果您努力提高总体覆盖率,请尝试通过注释过滤器来筛选规则未涵盖的记录。
管理规则#
在这里,您将看到已保存规则的列表。您可以通过单击规则的名称来编辑规则,或者通过单击垃圾桶图标来删除规则。