本页介绍如何创建 MLflow 试验并将开发环境连接到该试验。
MLflow 试验是生成式 AI 应用程序的容器。 在 试验数据模型 概念指南中详细了解 MLflow 试验。
转到与开发环境相关的部分:
本地开发环境
步骤 1:安装 MLflow
使用 Databricks 连接安装 MLflow:
pip install --upgrade "mlflow[databricks]>=3.1"
步骤 2:创建 MLflow 试验
打开 Databricks 工作区。
在左侧边栏中的 “AI/ML”下,单击“ 试验”。
在“试验”页顶部,单击 GenAI 应用和代理。
步骤 3:配置身份验证
注释
这些步骤介绍如何使用 Databricks 个人访问令牌。 MLflow 还适用于其他 Databricks 支持的身份验证方法。
选择以下身份验证方法之一:
环境变量
在 MLflow 试验中,单击 Kebab 菜单图标
>本地记录日志跟踪>,然后单击“生成 API 密钥”。
在终端中复制并运行生成的代码:
export DATABRICKS_TOKEN=<databricks-personal-access-token>
export DATABRICKS_HOST=https://<workspace-name>.cloud.databricks.com
export MLFLOW_TRACKING_URI=databricks
export MLFLOW_REGISTRY_URI=databricks-uc
export MLFLOW_EXPERIMENT_ID=<experiment-id>
.env 文件
在 MLflow 试验中,单击 Kebab 菜单图标
>本地记录日志跟踪>,然后单击“生成 API 密钥”。
将生成的代码复制到
.env
项目根目录中的文件:
DATABRICKS_TOKEN=<databricks-personal-access-token>
DATABRICKS_HOST=https://<workspace-name>.cloud.databricks.com
MLFLOW_TRACKING_URI=databricks
MLFLOW_REGISTRY_URI=databricks-uc
MLFLOW_EXPERIMENT_ID=<experiment-id>
- 安装
python-dotenv
包:
pip install python-dotenv
- 在代码中加载环境变量:
# At the beginning of your Python script
from dotenv import load_dotenv
# Load environment variables from .env file
load_dotenv()
步骤 4:验证连接
创建测试文件并运行此代码以验证您的连接,然后将测试 跟踪 记录到您的 MLflow 实验中:
import mlflow
import os
experiment_id = os.environ.get("MLFLOW_EXPERIMENT_ID")
databricks_host = os.environ.get("DATABRICKS_HOST")
mlflow_tracking_uri = os.environ.get("MLFLOW_TRACKING_URI")
if experiment_id is None or databricks_host is None or mlflow_tracking_uri is None:
raise Exception("Environment variables are not configured correctly.")
@mlflow.trace
def hello_mlflow(message: str):
hello_data = {
"experiment_url": f"{databricks_host}/mlflow/experiments/{experiment_id}",
"experiment_name": mlflow.get_experiment(experiment_id=experiment_id).name,
"message": message,
}
return hello_data
result = hello_mlflow("hello, world!")
print(result)
在 Databricks 托管的笔记本中开发
步骤 1:创建笔记本
创建 Databricks Notebook 会创建一个 MLflow 试验,该试验是 GenAI 应用程序的容器。 若要了解有关试验的详细信息,请参阅 数据模型。
打开 Databricks 工作区。
转到左侧边栏顶部的“新建”。
单击 “笔记本”。
步骤 2:安装 MLflow
Databricks 运行时包括 MLflow,但为了获得最佳 GenAI 功能体验,请更新到最新版本:
%pip install --upgrade "mlflow[databricks]>=3.1"
dbutils.library.restartPython()
步骤 3:配置身份验证
在 Databricks Notebook 中工作时不需要其他身份验证配置。 笔记本可以自动访问工作区和关联的 MLflow 试验。
步骤 4:验证连接
在笔记本单元中运行此代码以验证连接。 笔记本单元格下方会出现一个 MLflow 跟踪。
import mlflow
import os
@mlflow.trace
def hello_mlflow(message: str):
hello_data = {
"message": message,
}
return hello_data
result = hello_mlflow("hello, world!")
print(result)
后续步骤
继续您的旅程,并参考这些推荐的行动和教程。
- 使用跟踪功能装配您的应用程序(IDE) - 在本地 IDE 中添加 MLflow 跟踪到您的 GenAI 应用
- 为应用程序添加追踪功能(Notebook) - 在 Databricks Notebook 中添加 MLflow 追踪
- 评估应用的质量 - 系统地测试和提高应用的质量
参考指南
浏览本指南中提到的概念和功能的详细文档。
- MLflow 试验 - 了解 GenAI 应用程序的试验容器
- 跟踪概念 - 了解 MLflow 跟踪的基础知识
- Databricks 身份验证 - 探索所有可用的身份验证方法