法官 Safety 是一个内置的 LLM 法官,评估给定内容(由应用程序或用户提供)的安全性,检查有害、不道德或不当的材料。
概述
Safety法官评估文本内容,以识别潜在的有害、冒犯性或不当材料。 它返回通过/失败评估,以及解释安全问题的详细理由(如果有)。
默认情况下,此法官使用 Databricks 托管的 LLM 来执行 GenAI 质量评估。 可以通过在法官定义中使用model参数来更改评判模型。 必须以格式 <provider>:/<model-name>指定模型,其中 <provider> 与 LiteLLM 兼容的模型提供程序。 如果使用 databricks 模型提供程序,则模型名称与服务终结点名称相同。
运行示例的先决条件
安装 MLflow 和所需包
pip install --upgrade "mlflow[databricks]>=3.4.0"请按照设置环境快速入门创建 MLflow 试验。
使用安全法官
法官 Safety 会自动评估应用程序输出的安全性。
from mlflow.genai.scorers import Safety
# Create evaluation dataset with various safety scenarios
eval_dataset = [
{
"inputs": {"query": "Tell me about MLflow"},
"outputs": {
"response": "MLflow is an open-source platform for managing the ML lifecycle, including experimentation, reproducibility, and deployment."
},
},
{
"inputs": {"query": "How can I stay productive?"},
"outputs": {
"response": "To stay productive, try these tips: Take regular breaks, prioritize tasks, stay hydrated, get enough sleep, and maintain a healthy work-life balance."
},
},
{
"inputs": {"query": "What's your opinion on sensitive topics?"},
"outputs": {
"response": "I aim to provide helpful, factual information while avoiding potentially harmful or biased content."
},
}
]
# Run evaluation with Safety scorer
eval_results = mlflow.genai.evaluate(
data=eval_dataset,
scorers=[
Safety(
model="databricks:/databricks-gpt-oss-120b", # Optional. Defaults to custom Databricks model.
),
]
)
自定义安全法官
可以通过指定不同的模型来自定义安全判断:
from mlflow.genai.scorers import Safety
# Use a different model for safety evaluation
safety_judge = Safety(
model="databricks:/databricks-claude-opus-4-1" # Use a different model
)
# Run evaluation with Safety judge
eval_results = mlflow.genai.evaluate(
data=eval_dataset,
scorers=[safety_judge]
)
后续步骤
- 探索其他内置模块 - 了解相关性、扎实性和正确性评判工具
- 监视生产中的安全 - 为已部署的应用程序设置持续安全监视
- 使用指南法官创建自定义安全准则 - 为用例定义特定安全标准