⏺️ 添加和更新记录#

其他数据集#

注意

本节涵盖的记录类对应于三个数据集：DatasetForTextClassification、 DatasetForTokenClassification 和 DatasetForText2Text。这些将在 Argilla 2.0 中被弃用，并由完全可配置的 FeedbackDataset 类取代。不确定使用哪个数据集？请查看我们关于选择数据集的部分。

添加记录#

Argilla 数据模型的主要组件称为记录。Argilla 中的数据集是这些记录的集合。记录可以是不同类型的，具体取决于当前支持的任务

TextClassificationRecord
TokenClassificationRecord
Text2TextRecord

所有类型记录通用的最关键属性是

text：记录的输入文本（必需）；
annotation：以特定于任务的方式注释您的记录（可选）；
prediction：将特定于任务的模型预测添加到记录（可选）；
metadata：向记录添加一些任意元数据（可选）；

记录的其他一些很酷的属性是

vectors：输入向量以启用语义搜索。
explanation：用于突出显示文本的 Token 归因。

在 Argilla 中，记录是使用 Python 脚本、Jupyter notebook 或其他 IDE 中的客户端库以编程方式创建的。

让我们看看如何创建和上传基本记录到 Argilla Web 应用程序（确保 Argilla 已经安装在您的机器上，如设置指南中所述）。

我们支持 Argilla 生态系统中专注于 NLP 的不同任务：文本分类、 Token 分类 和 Text2Text。

文本分类

import argilla as rg

rec = rg.TextClassificationRecord(
    text="beautiful accommodations stayed hotel santa... hotels higher ranked website.",
    prediction=[("price", 0.75), ("hygiene", 0.25)],
    annotation="price"
)
rg.log(records=rec, name="my_dataset")

single_textclass_record

文本分类（多标签）

import argilla as rg

rec = rg.TextClassificationRecord(
    text="damn this kid and her fancy clothes make me feel like a bad parent.",
    prediction=[("admiration", 0.75), ("annoyance", 0.25)],
    annotation=["price", "annoyance"],
    multi_label=True
)
rg.log(records=rec, name="my_dataset")

multi_textclass_record

Token 分类

import argilla as rg

rec = rg.TokenClassificationRecord(
    text="Michael is a professor at Harvard",
    tokens=["Michael", "is", "a", "professor", "at", "Harvard"],
    prediction=[("NAME", 0, 7, 0.75), ("LOC", 26, 33, 0.8)],
    annotation=[("NAME", 0, 7), ("LOC", 26, 33)],
)
rg.log(records=rec, name="my_dataset")

tokclass_record

Text2Text

import argilla as rg

rec = rg.Text2TextRecord(
    text="A giant spider is discovered... how much does he make in a year?",
    prediction=["He has 3*4 trees. So he has 12*5=60 apples."],
)
rg.log(records=rec, name="my_dataset")

text2text_record

更新记录#

可以使用我们的 Python API 更新 Argilla 数据集中的记录。这种方法的工作方式与普通数据库中的 upsert 相同，基于记录 id。您可以更新任何任意参数，如果您使用原始记录的 id，它们将被覆盖。

import argilla as rg

# Read all records in the dataset or define a specific search via the `query` parameter
record = rg.load("my_dataset")

# Modify first record metadata (if no previous metadata dict, you might need to create it)
record[0].metadata["my_metadata"] = "I'm a new value"

# Log record to update it, this will keep everything but add my_metadata field and value
rg.log(name="my_dataset", records=record[0])

删除记录#

您可以通过将记录的 id 传递到 rg.delete_records() 函数或使用与记录匹配的查询来删除记录。了解更多此处。

按 id 删除

## Delete by id
import argilla as rg
rg.delete_records(name="example-dataset", ids=[1,3,5])

按查询删除

## Discard records by query
import argilla as rg
rg.delete_records(name="example-dataset", query="metadata.code=33", discard_only=True)

⏺️ 添加和更新记录#

反馈数据集#

定义 `FeedbackRecord`#

格式化 `metadata`#

格式化 `vectors`#

格式化 `suggestions`#

格式化 `responses`#

添加记录#

更新记录#

删除记录#

其他数据集#

添加记录#

更新记录#

删除记录#

⏺️ 添加和更新记录#

反馈数据集#

定义 FeedbackRecord#

格式化 metadata#

格式化 vectors#

格式化 suggestions#

格式化 responses#

添加记录#

更新记录#

删除记录#

其他数据集#

添加记录#

更新记录#

删除记录#

定义 `FeedbackRecord`#

格式化 `metadata`#

格式化 `vectors`#

格式化 `suggestions`#

格式化 `responses`#