评估数据集参考

本页介绍评估数据集架构，并包含指向一些最常用的方法和类的 SDK 参考的链接。

有关如何使用评估数据集的一般信息和示例，请参阅开发期间的 Evaluate GenAI。

评估数据集架构

评估数据集必须使用本节中所述的架构。

核心字段

评估数据集抽象或直接传递数据时使用以下字段。

列	数据类型	Description	必选
`inputs`	`dict[Any, Any]`	应用的输入（例如用户问题、上下文），存储为 JSON 可序列化的`dict`。	是的
`expectations`	`dict[Str, Any]`	真实数据标签，存储为 JSON 可序列化的 `dict`。	可选

`expectations` 保留密钥

expectations 具有由内置 LLM 法官使用的多个保留密钥： guidelines， expected_facts以及 expected_response。

领域	使用者	Description
`expected_facts`	`Correctness` 法官	应显示的事实列表
`expected_response`	`Correctness` 法官	确切或类似的预期输出
`guidelines`	`Guidelines` 法官	要遵循的自然语言规则
`expected_retrieved_context`	`document_recall` 得分手	应检索的文档

其他字段

评估数据集抽象使用以下字段来跟踪世系和版本历史记录。

列	数据类型	Description	必选
`dataset_record_id`	字符串	记录的唯一标识符。	如果未提供，则自动设置。
`create_time`	时间戳	创建记录的时间。	插入或更新时自动设置。
`created_by`	字符串	创建记录的用户。	插入或更新时自动设置。
`last_update_time`	时间戳	上次更新记录的时间。	插入或更新时自动设置。
`last_updated_by`	字符串	上次更新记录的用户。	插入或更新时自动设置。
`source`	结构	数据集记录的源。请参阅 “源”字段。	可选
`tags`	dict[str， Any]	数据集记录的键值标记。	可选

源字段

字段 source 跟踪数据集记录来自何处。每个记录只能有一个源类型。

人源：人员手动创建的记录

{
    "source": {
        "human": {
            "user_name": "jane.doe@company.com"  # user who created the record
        }
    }
}

文档源：从文档合成的记录

{
    "source": {
        "document": {
            "doc_uri": "s3://bucket/docs/product-manual.pdf",  # URI or path to the source document
            "content": "The first 500 chars of the document..."  # Optional, excerpt or full content from the document
        }
    }
}

跟踪源：从生产跟踪创建的记录

{
    "source": {
        "trace": {
            "trace_id": "tr-abc123def456". # unique identifier of the source trace
        }
    }
}

MLflow 评估数据集 UI

eval 数据集 ui

MLflow 评估数据集 SDK 参考

评估数据集 SDK 提供编程访问，用于创建、管理和使用用于 GenAI 应用评估的数据集。有关详细信息，请参阅 API 参考： mlflow.genai.datasets 下面是一些最常用的方法和类：

mlflow.genai.datasets.create_dataset
mlflow.genai.datasets.get_dataset
mlflow.genai.datasets.delete_dataset
EvaluationDataset。此类提供用于与评估数据集交互并进行修改的方法。

Last updated on 2026-01-26

通过