什么是适用于 Linux 和 Windows 的 Azure Data Science Virtual Machine?
Data Science Virtual Machine (DSVM) 是 Azure 云平台上提供的自定义 VM 映像,可以处理数据科学任务。 它预装并预配了许多热门数据科学工具,可加快生成用于高级分析的智能应用程序。
DSVM 在以下环境中可用:
- Windows Server 2019
- Windows Server 2022
- Ubuntu 20.04 LTS
此外,我们还提供用于 PyTorch 的 Azure DSVM,这是 Azure 市场中的 Ubuntu 20.04 映像,已针对大型分布式深度学习工作负荷进行了优化。 此预安装的 DSVM 已使用最新的 PyTorch 版本进行验证,可降低设置成本并加快实现价值的时间。 它附带了各种优化功能:
- ONNX 运行时
- DeepSpeed
- MSCCL
- ORTMoE
- Fairscale
- Nvidia Apex
- 具有最新兼容版本的 Ubuntu、Python、PyTorch 和 CUDA 的最新堆栈
与 Azure 机器学习进行比较
DSVM 是一种用于数据科学的自定义 VM 映像,而 Azure 机器学习是一个端到端平台,其中包含:
- 完全托管计算
- 计算实例
- 用于分布式 ML 任务的计算群集
- 用于实时评分的推理群集
- 数据存储(例如 Blob、ADLS Gen2、SQL DB)
- 试验跟踪
- 模型管理
- 笔记本
- 环境(管理 conda 和 R 依赖项)
- 标记
- 管道(自动化端到端数据科学工作流)
与 Azure 机器学习计算实例进行比较
Azure 机器学习计算实例是完全配置的托管 VM 映像,而 DSVM 是非托管的 VM。
DSVM 与 Azure 机器学习计算实例之间的主要区别:
功能 | 数据科学 VM |
Azure 机器学习 计算实例 |
---|---|---|
完全托管 | 否 | 是 |
语言支持 | Python、R、Julia、SQL、C#、 Java、Node.js、F# |
Python 和 R |
操作系统 | Ubuntu Windows |
Ubuntu |
已预配置的 GPU 选项 | 是 | 是 |
纵向扩展选项 | 是 | 是 |
SSH 访问权限 | 是 | 是 |
RDP 访问权限 | 是 | 否 |
内置 托管的 Notebooks |
否 (需要其他配置) |
是 |
内置 SSO | 无 (需要其他配置) |
是 |
内置协作 | 否 | 是 |
预安装的工具 | Jupyter(lab)、VS Code、 Visual Studio、PyCharm、Juno、 Power BI Desktop、SSMS、 Microsoft Office 365、Apache Drill |
Jupyter(lab) |
DSVM 客户用例示例
短期试验和评估
DSVM 可以评估或学习新的数据科学工具。 请尝试我们发布的一些示例和演练。
使用 GPU 进行深度学习
在 DSVM 中,训练模型可以在基于图形处理单元 (GPU) 的硬件上使用深度学习算法。 如果利用 Azure 平台的 VM 缩放功能,DSVM 可帮助根据需要在云中使用基于 GPU 的硬件。 若要训练大型模型或者在保留相同 OS 磁盘的同时进行高速计算,可以切换到基于 GPU 的 VM。 可以在 DSVM 中选择启用了 N 系列 GPU 的任意虚拟机 SKU。 Azure 试用版不支持由 GPU 提供支持的虚拟机 SKU。
Windows 版的 DSVM 预安装了 GPU 驱动程序、框架和 GPU 版本的深度学习框架。 Linux 版的 Ubuntu DSVM 上启用了基于 GPU 的深度学习。
此外,还可以将 Ubuntu 或 Windows DSVM 版本部署到不基于 GPU 的 Azure 虚拟机。 在这种情况下,所有深度学习框架都会回退到 CPU 模式。
数据科学训练和培训
教授数据科学课程的企业培训师和教师通常提供虚拟机映像。 该映像确保学员都具有一致的设置且示例以可预测方式工作。
DSVM 将创建一个具有一致设置的按需环境,以减轻支持和不兼容性方面的挑战。 这些环境需要频繁生成,特别是短期培训课程的情况从中获益极大。
DSVM 包括哪些内容?
有关详细信息,请参阅 Windows 和 Linux DSVM 上工具的完整列表。
后续步骤
有关详细信息,请参阅以下资源:
Windows:
Linux: