功能#

注释记录#

注意

有关新反馈任务数据集中的功能信息,请查看本指南

Annotate records

Argilla UI 具有专用模式,可以非常直观地快速标注数据,或修改以前的黄金标签并进行更正。Argilla 强大的搜索和筛选功能,以及潜在的模型预测,可以指导注释过程并支持注释者。

注释模式数据集页面的默认模式。

创建标签#

对于文本和 Token 分类任务,您可以在注释模式内创建新标签。在批量验证栏的右侧,您会找到一个“+ 创建新标签”按钮,可让您向数据集添加新标签。

注释#

Argilla UI 提供了一个简单直观的界面,用于注释记录。每个任务都提供了各种小功能和交互,以优化注释。

文本分类#

单标签#

单标签文本分类记录 您可以单击标签来注释记录。记录将自动验证。

多标签#

多标签文本分类记录 要注释记录,请单击一个或多个标签。记录被注释后,其状态将显示为待处理。如果您想放弃更改并恢复记录的先前状态,请单击重置;如果想将注释保存到数据集中,请单击验证。然后,状态将在记录卡片的左上角更改为已验证

您也可以使用清除按钮删除所有注释,或单击丢弃从数据集中丢弃记录。

注意

当数据集包含大量标签列表(10 个以上)时,我们建议逐个查看记录卡片(从页脚选择每页 1 条记录),并使用箭头键在记录之间快速移动。

Token 分类#

Token classification record

对于 Token 分类数据集,您可以突出显示文本中的单词(Token)并使用标签对其进行注释。在底层,突出显示利用了tokens信息,该信息位于Token 分类数据模型中。要删除特定标签,请将鼠标悬停在突出显示处,然后按 X 按钮或直接双击彩色区域。您也可以单击清除按钮删除记录中的所有注释。

在修改记录后,无论是添加还是删除注释,其状态都将更改为待处理。当您完成对整个记录的注释后,请单击验证以保存更改。状态将更改为已验证,显示在记录卡片的左上角。或者,您可以使用重置按钮放弃更改并恢复记录的先前状态。

如果您想从数据集中丢弃记录,请单击丢弃

Text2Text#

Text2Text 记录 对于 Text2Text 数据集,有一个文本框可用于起草或编辑注释。如果记录有一个或多个预测,则得分最高的预测将被预填充。您可以通过单击清除按钮来清空文本字段。

请记住在编辑或起草注释后进行验证以保存更改。或者,您可以使用重置按钮放弃更改并恢复到记录的先前状态。

验证注释后,仍然可以在记录卡片右侧的预测面板中访问预测。

如果您想从数据集中丢弃记录,请单击丢弃

批量注释#

对于所有任务,您都可以使用批量操作。您可以单击每张卡片左上角的选择框逐个选择记录,也可以使用搜索栏下方的全局选择框,这将选择页面上显示的所有记录。然后,您可以使用全局选择框旁边的图标验证丢弃选定的记录。对于多标签文本分类和 Token 分类任务,您还可以批量清除重置

Bulk actions bar

对于文本分类任务,您还可以通过简单地单击全局选择框旁边的铅笔图标并从列表中选择标签来批量注释选定的记录。

在多标签文本分类中,您可以通过单击标签旁边的叉号从选定的记录中删除标签。您还可以通过单击标签按钮将部分使用的标签分配给整个选择。完成选择后,单击选择以将注释应用于所有选定的记录。要完成验证,请单击“验证”图标。

Multi-label bulk annotation

在单标签文本分类中,选择标签后无需验证。

验证预测#

在 Argilla 中,您可以通过在记录中包含模型预测来预先注释数据。假设模型在您的数据集上运行良好,您可以筛选出具有高预测分数的记录,并简单地验证其预测以快速注释记录。

注意

如果您对预测进行任何更改、验证注释或从头开始注释,则需要验证记录以保存更改。

文本分类#

对于此任务,模型预测以百分比形式显示在标签标记中。您可以通过按验证按钮来验证以稍深的色调显示的预测

  • 对于单标签分类任务,这将是具有最高百分比的预测

  • 对于多标签分类任务,这将是百分比高于 50% 的预测

如果您在单标签任务中选择不同的标签,状态将自动更改为已验证。在多标签任务中,如果您进行任何更改或清除预测/注释,状态将更改为待处理。然后,您可以单击验证以保存更改,或单击重置以还原更改并恢复先前状态。

Token 分类#

对于此任务,预测显示为下划线。您也可以通过按验证按钮来验证预测(或缺少预测)。

如果您进行任何更改或清除预测/注释,状态将更改为待处理。然后,您可以单击验证以保存更改,或单击重置以还原更改并恢复先前状态。

Text2Text#

预测及其得分将显示在主文本下方的文本框中。您可以通过单击验证按钮来验证预测,或直接在文本框中进行更改来编辑文本。

如果您进行任何更改,状态将更改为待处理,您需要按 Shift+Enter 或单击验证按钮以保存更改。您也可以单击清除按钮从头开始编写,或单击重置以撤消更改并恢复先前状态。

搜索和筛选#

强大的搜索栏允许您进行简单、快速的搜索,以及充分利用 Argilla 的数据模型的复杂查询。此外,筛选器为您提供了一种快速直观的方式来筛选和排序记录,可以根据各种参数进行筛选和排序,包括记录的元数据。例如,您可以使用状态筛选器来隐藏已注释的记录(状态:默认),或者仅在修改以前的注释时显示已注释的记录(状态:已验证)。

您可以在我们详细的搜索指南筛选器指南中找到有关如何使用搜索栏和筛选器的更多信息。

注意

并非所有筛选器都适用于所有任务

进度指标#

从侧边栏,您可以访问进度指标。在那里,您将找到注释会话的进度、已验证和已丢弃记录的分布以及注释的标签分布。

您可以在我们专门的指标指南中找到有关指标的更多信息。

弱标签#

Weak labeling

Argilla UI 具有专用模式,用于查找良好的启发式规则,通常也称为标签函数,用于弱监督工作流。如我们的指南教程所示,这些规则允许您以半自动方式使用噪声标签快速注释数据。

您可以通过数据集页面的侧边栏访问弱标签模式。

注意

弱标签模式仅适用于文本分类数据集。

查询加标签#

Argilla 中的规则基本上是将选定的一组标签应用于与给定查询匹配的记录列表,因此您只需要一个查询加标签。在搜索栏中输入查询并选择一个或多个标签后,您将在右侧看到规则的一些指标,并在下面的记录列表中看到查询的匹配项。

警告

筛选器不是规则的一部分,但应用于记录列表。这意味着,如果您设置了筛选器,则记录列表不一定与受规则影响的记录相对应。

如果您对指标和/或匹配的记录列表感到满意,则可以单击“保存规则”来保存规则。这样,它将作为当前数据集的一部分存储,并且可以通过管理规则按钮进行访问。

提示

如果您想向可用标签列表中添加标签,可以转到数据集设置页面并在那里创建新标签。

规则指标#

在输入查询并选择标签后,Argilla 为您提供有关规则的一些关键指标。某些指标仅在您的数据集也包含注释记录时才可用。

  • 覆盖率:规则标记的记录百分比。

  • 注释覆盖率:规则标记的注释记录百分比。

  • 正确/不正确:规则相对于注释正确/不正确预测的标签数量。

  • 精确率:规则相对于注释给出的正确标签的百分比。

注意

对于多标签分类任务,我们仅将错误预测的标签计为不正确,而不计算规则遗漏的标签。

总体规则指标#

右侧边栏,您可以访问总体规则指标。在这里,您将找到聚合指标,例如覆盖率、平均精确率以及正确/不正确预测标签的总数。您还可以找到已保存规则数量的概述以及它们相对于标签的分布情况。

提示

如果您难以提高总体覆盖率,请尝试通过注释筛选器筛选未被规则覆盖的记录。

管理规则#

在这里,您将看到已保存规则的列表。您可以通过单击规则的名称来编辑规则,或通过单击垃圾桶图标来删除规则。

浏览记录#

Explore records

如果您想浏览数据集或分析模型的预测,Argilla UI 提供了专用的浏览模式。强大的搜索功能和直观的筛选器使您可以快速浏览记录并深入了解数据集。同时,您可以查看预测并将它们与黄金注释进行比较。

您可以通过数据集页面的侧边栏访问浏览模式

搜索和筛选#

强大的搜索栏允许您进行简单、快速的搜索,以及充分利用 Argilla 的数据模型的复杂查询。此外,筛选器为您提供了一种快速直观的方式来筛选和排序记录,可以根据各种参数(包括预测和注释)进行筛选和排序。这两个组件可以一起使用,以深入剖析数据集、验证预感并查找特定记录。

您可以在我们详细的搜索指南筛选器指南中找到有关如何使用搜索栏和筛选器的更多信息。

注意

并非所有筛选器都适用于所有任务

预测和注释#

预测和注释是 Argilla 的数据模型的组成部分。它们在 Argilla UI 中的呈现方式取决于数据集的任务和在右列中激活的模式。

文本分类#

在此任务中,预测以标签的形式在输入文本下方给出。它们包含标签以及百分比分数。

在注释视图中,预测的标签以稍深的色调显示,而注释则具有更深的阴影和白色字母。在浏览视图中,预测的标签显示在输入文本下方,注释显示为卡片右侧的标签。

Token 分类#

在此任务中,预测和注释都显示为输入文本中的突出显示。为了轻松地一目了然地识别它们,注释使用其对应标签的颜色进行突出显示,而预测则使用实线下划线

Text2Text#

在此任务中,得分最高的预测会显示在输入文本下方的文本字段中。您可以通过单击其关联的得分(显示在右上角)来在预测之间切换。

一旦您开始更改文本或在验证注释后,预测仍然可以从文本字段右侧的预测横幅中看到。

指标#

从侧边栏,您可以访问统计指标,这些指标为您的数据集分析提供支持。

搜索记录#

Search records

Argilla 中的搜索栏由 Elasticsearch 强大的查询字符串语法驱动。

它允许您执行单词和短语的简单模糊搜索,或充分利用 Argilla 数据模型的复杂查询。

查看查询指南,以获得有关如何在 Argilla UI 中搜索的全面指南。

筛选记录#

Argilla UI 提供了一组筛选器,可帮助您快速方便地浏览记录。例如,您可以按记录的预测、特定元数据筛选记录,或选择仅查看缺少注释的记录。筛选器在 UI 的所有模式中均可用。

提示

您还可以通过查询通过搜索栏筛选记录。

注意

并非下面列出的所有筛选器都适用于所有任务

预测筛选器#

此筛选器允许您根据记录的预测来筛选记录

  • 预测为:按预测标签筛选记录

  • 预测正确:筛选预测与注释匹配或不匹配的记录

  • 得分:根据预测得分筛选记录

  • 预测者:按预测代理筛选记录

注释筛选器#

此筛选器允许您根据记录的注释来筛选记录

  • 注释为:根据注释标签筛选记录

  • 注释者:按注释代理筛选记录

  • 仅显示规则未覆盖的记录:如果您为数据集定义了规则,则此选项才会出现。它允许您仅显示被规则覆盖的记录。

状态筛选器#

此筛选器允许您根据记录的状态来筛选记录

  • 默认:没有任何注释或编辑的记录

  • 已验证:具有已验证注释的记录

  • 已编辑:具有注释但仍未验证的记录

元数据筛选器#

此筛选器允许您根据记录的元数据来筛选记录。

提示

嵌套元数据将被展平,键将用点连接。

排序记录#

使用此组件,您可以按各种参数(例如预测、注释或其元数据)对记录进行排序。

示例#

在这里,我们将提供一些示例,说明如何利用筛选器来满足不同的用例。

缺少注释#

如果您正在注释记录并且只想显示尚未注释的记录,则可以将状态筛选器设置为默认

低分#

如果您上传了模型预测并想检查模型仍在哪些记录上挣扎,则可以使用得分筛选器来筛选得分较低的记录。

高损失#

如果您将模型损失记录为每个记录的元数据,则可以按降序对记录进行排序,以查看模型与注释不一致的记录(有关示例,请参见本教程)。

查看数据集指标#

View metrics

数据集指标是位于 Argilla 数据集右侧侧边栏的一部分。要了解有关此组件的更多信息,请单击此处

Argilla 指标在评估数据集状态和提取有价值信息方面非常方便。

如何使用指标#

指标由两个子菜单组成:进度统计。对于 Token文本分类任务,以及不同的模式(尤其是弱标签模式),这些子菜单可能会有所不同。

进度#

当用户需要知道已注释、验证和/或丢弃了多少条记录时,此子菜单非常有用。

注释和浏览模式#

单击此菜单时,不仅会显示进度。还会显示记录数,以及已验证已丢弃的已标记记录或实体的数量。

弱标签模式#

在此模式下,进度与规则的覆盖率相关。它显示模型覆盖率注释覆盖率,以及平均精确率以及正确和不正确结果的数量。

总规则部分中,用户可以找到与不同类别相关的规则数量。

Progress menu 2

统计#

此子菜单允许用户更多地了解数据集的关键词。

浏览和弱标签模式#

在这两种模式下,关键词列表显示相关单词的列表以及出现次数。

注释模式#

注释模式下,统计信息显示记录中存在的 mentions(即实体)。

这个子菜单包含 Predicted as (用于预测)和 Annotated as (用于标注)部分,用户可以在这里看到使用特定标签预测或标注的实体数量。出现次数从高到低排序,标签也以同样的方式排序。

刷新按钮#

用户应在想要查看页面更新时单击此按钮。如果进行了任何更改,此按钮将显示更新后的页面。