Databricks 上的 AI 和机器学习

使用马赛克 AI 构建、部署和管理 AI 和机器学习应用程序，这是一个集成平台，可将整个 AI 生命周期从数据准备到生产监视统一。

有关入门的一组教程，请参阅 AI 和机器学习教程。

构建生成 AI 应用程序

开发和部署企业级生成 AI 应用程序。

功能 / 特点	Description
适用于 GenAI 的 MLflow	使用 AI 支持的指标和全面的跟踪可观测性来衡量、改进和监视 GenAI 应用程序生命周期的质量。

训练经典机器学习模型

使用自动化工具和协作开发环境创建机器学习模型。

功能 / 特点	Description
AutoML	使用自动化功能工程和超参数优化，使用最少的代码自动生成高质量的模型。
用于 ML 的 Databricks Runtime	使用 TensorFlow、PyTorch、Keras 和 GPU 支持的预配置群集进行深度学习开发。
MLflow 跟踪	跟踪试验、比较模型性能以及管理完整的模型开发生命周期。
特征工程	使用自动化数据管道和功能发现创建、管理和提供功能。
Databricks 笔记本	协作开发环境，支持 Python、R、Scala 和 SQL for ML 工作流。

训练深度学习模型

使用内置框架开发深度学习模型。

功能 / 特点	Description
分布式训练	使用 Ray、TorchDistributor 和 DeepSpeed 进行分布式深度学习的示例。
关于 Databricks 深度学习的最佳做法	关于 Databricks 的深度学习最佳实践。
PyTorch	使用 PyTorch 的单节点和分布式训练。
TensorFlow	使用 TensorFlow 和 TensorBoard 的单节点和分布式训练。
参考解决方案	深度学习参考解决方案。

部署和提供模型

使用可缩放的终结点、实时推理和企业级监视将模型部署到生产环境。

监视和管理 ML 系统

通过全面的监视和治理工具确保模型质量、数据完整性和合规性。

功能 / 特点	Description
Unity 目录	使用统一的访问控制、世系跟踪和发现来管理数据、功能、模型和函数。
MLflow 用于模型	在整个开发生命周期中跟踪、评估和监视生成 AI 应用程序。

实现机器学习工作流生产化

使用自动化工作流程、CI/CD 集成和生产就绪的管道扩展机器学习操作。

功能 / 特点	Description
Unity 目录中的模型	使用 Unity 目录中的模型注册表进行集中治理，并管理模型生命周期，包括部署。
Lakeflow 作业	生成自动化工作流和生产就绪的 ETL 管道，以便进行 ML 数据处理。
Databricks 上的 Ray	使用分布式计算缩放 ML 工作负荷，以便进行大规模模型训练和推理。
MLOps 工作流	使用自动化训练、测试和部署管道实现端到端机器学习运维（MLOps）。
Git 集成	使用无缝 Git 集成和协作开发对 ML 代码和笔记本进行版本控制。

Last updated on 2026-03-23