快速入门:将开发环境连接到 MLflow

本页介绍如何创建 MLflow 试验并将开发环境连接到该试验。

MLflow 试验是生成式 AI 应用程序的容器。 在 试验数据模型 概念指南中详细了解 MLflow 试验。

转到与开发环境相关的部分:

  1. 本地的 IDE 或笔记本中

  2. Databricks 托管的笔记本

本地开发环境

步骤 1:安装 MLflow

使用 Databricks 连接安装 MLflow:

pip install --upgrade "mlflow[databricks]>=3.1"

步骤 2:创建 MLflow 试验

  1. 打开 Databricks 工作区。

  2. 在左侧边栏中的 “AI/ML”下,单击“ 试验”。

  3. 在“试验”页顶部,单击 GenAI 应用和代理

创建试验

步骤 3:配置身份验证

注释

这些步骤介绍如何使用 Databricks 个人访问令牌。 MLflow 还适用于其他 Databricks 支持的身份验证方法

选择以下身份验证方法之一:

环境变量

  1. 在 MLflow 试验中,单击 Kebab 菜单图标 Kebab 菜单图标。>本地记录日志跟踪>,然后单击“生成 API 密钥”

  2. 在终端中复制并运行生成的代码:

export DATABRICKS_TOKEN=<databricks-personal-access-token>
export DATABRICKS_HOST=https://<workspace-name>.cloud.databricks.com
export MLFLOW_TRACKING_URI=databricks
export MLFLOW_REGISTRY_URI=databricks-uc
export MLFLOW_EXPERIMENT_ID=<experiment-id>

.env 文件

  1. 在 MLflow 试验中,单击 Kebab 菜单图标 Kebab 菜单图标。>本地记录日志跟踪>,然后单击“生成 API 密钥”

  2. 将生成的代码复制到 .env 项目根目录中的文件:

DATABRICKS_TOKEN=<databricks-personal-access-token>
DATABRICKS_HOST=https://<workspace-name>.cloud.databricks.com
MLFLOW_TRACKING_URI=databricks
MLFLOW_REGISTRY_URI=databricks-uc
MLFLOW_EXPERIMENT_ID=<experiment-id>
  1. 安装 python-dotenv 包:
pip install python-dotenv
  1. 在代码中加载环境变量:
# At the beginning of your Python script
from dotenv import load_dotenv

# Load environment variables from .env file
load_dotenv()

步骤 4:验证连接

创建测试文件并运行此代码以验证您的连接,然后将测试 跟踪 记录到您的 MLflow 实验中:

import mlflow
import os

experiment_id = os.environ.get("MLFLOW_EXPERIMENT_ID")
databricks_host = os.environ.get("DATABRICKS_HOST")
mlflow_tracking_uri = os.environ.get("MLFLOW_TRACKING_URI")

if experiment_id is None or databricks_host is None or mlflow_tracking_uri is None:
    raise Exception("Environment variables are not configured correctly.")

@mlflow.trace
def hello_mlflow(message: str):

    hello_data = {
        "experiment_url": f"{databricks_host}/mlflow/experiments/{experiment_id}",
        "experiment_name": mlflow.get_experiment(experiment_id=experiment_id).name,
        "message": message,
    }
    return hello_data

result = hello_mlflow("hello, world!")
print(result)

hello mlflow

在 Databricks 托管的笔记本中开发

步骤 1:创建笔记本

创建 Databricks Notebook 会创建一个 MLflow 试验,该试验是 GenAI 应用程序的容器。 若要了解有关试验的详细信息,请参阅 数据模型

  1. 打开 Databricks 工作区。

  2. 转到左侧边栏顶部的“新建”

  3. 单击 “笔记本”。

步骤 2:安装 MLflow

Databricks 运行时包括 MLflow,但为了获得最佳 GenAI 功能体验,请更新到最新版本:

%pip install --upgrade "mlflow[databricks]>=3.1"
dbutils.library.restartPython()

步骤 3:配置身份验证

在 Databricks Notebook 中工作时不需要其他身份验证配置。 笔记本可以自动访问工作区和关联的 MLflow 试验。

步骤 4:验证连接

在笔记本单元中运行此代码以验证连接。 笔记本单元格下方会出现一个 MLflow 跟踪。

import mlflow
import os

@mlflow.trace
def hello_mlflow(message: str):
    hello_data = {
        "message": message,
    }
    return hello_data

result = hello_mlflow("hello, world!")
print(result)

hello mlflow 笔记本单元格

后续步骤

继续您的旅程,并参考这些推荐的行动和教程。

参考指南

浏览本指南中提到的概念和功能的详细文档。