什么是适用于 Linux 和 Windows 的 Azure Data Science Virtual Machine?
Data Science Virtual Machine (DSVM) 是专为开展数据科学构建的 Azure 云平台上的自定义 VM 映像。 它预装并预配了许多热门数据科学工具,可加快生成用于高级分析的智能应用程序。
DSVM 在以下环境中可用:
- Windows Server 2019
- Windows Server 2022
- Ubuntu 20.04 LTS
此外,我们很高兴提供适用于 PyTorch 的 Azure DSVM,这是 Azure 市场中的 Ubuntu 20.04 映像,已针对大型分布式深度学习工作负载进行优化。 它预安装最新 PyTorch 版本并对其进行验证,以减少设置成本并加快实现价值的时间。 其中打包了各种优化功能(ONNX Runtime、DeepSpeed、MSCCL、ORTMoE、Fairscale、Nvidia Apex),以及 Ubuntu、Python、PyTorch、CUDA 的最新兼容版本的最新堆栈。
与 Azure 机器学习进行比较
DSVM 是一种用于数据科学的自定义 VM 映像,而 Azure 机器学习是一个端到端平台,其中包含:
- 完全托管计算
- 计算实例
- 用于分布式 ML 任务的计算群集
- 用于实时评分的推理群集
- 数据存储(例如 Blob、ADLS Gen2、SQL DB)
- 试验跟踪
- 模型管理
- 笔记本
- 环境(管理 conda 和 R 依赖项)
- 标记
- 管道(自动化端到端数据科学工作流)
与 Azure 机器学习计算实例进行比较
Azure 机器学习计算实例是完全配置的托管 VM 映像,而 DSVM 是非托管的 VM 。
它们之间的主要区别:
功能 | 数据科学 VM |
Azure 机器学习 计算实例 |
---|---|---|
完全托管 | 否 | 是 |
语言支持 | Python、R、Julia、SQL、C#、 Java、Node.js、F# |
Python 和 R |
操作系统 | Ubuntu Windows |
Ubuntu |
已预配置的 GPU 选项 | 是 | 是 |
纵向扩展选项 | 是 | 是 |
SSH 访问权限 | 是 | 是 |
RDP 访问权限 | 是 | 否 |
内置 托管的 Notebooks |
否 (需要其他配置) |
是 |
内置 SSO | 无 (需要其他配置) |
是 |
内置协作 | 否 | 是 |
预安装的工具 | Jupyter(lab)、VS Code、 Visual Studio、PyCharm、Juno、 Power BI Desktop、SSMS、 Microsoft Office 365、Apache Drill |
Jupyter(lab) |
示例用例
以下是 DSVM 客户的一些常见用例。
短期实验和评估
可以使用 DSVM,专门参考我们发布的一些示例和演练来评估或学习新的数据科学工具。
使用 GPU 进行深度学习
在 DSVM 中,训练模型可以使用基于图形处理单元 (GPU) 的硬件上的深度学习算法。 利用 Azure 平台的 VM 缩放功能,DSVM 可帮助根据需要在云中使用基于 GPU 的硬件。 若要训练大型模型或者在保留相同 OS 磁盘的同时进行高速计算,可以切换到基于 GPU 的 VM。 可在 DSVM 中选择启用了 N 系列 GPU 的任意虚拟机 SKU。 注意,Azure 试用订阅不支持启用了 GPU 的虚拟机 SKU。
Windows 版的 DSVM 预安装了 GPU 驱动程序、框架和 GPU 版本的深度学习框架。 Linux 版的 Ubuntu DSVM 上启用了基于 GPU 的深度学习。
还可以将 Ubuntu 或 Windows 版本的 DSVM 部署到不基于 GPU 的 Azure 虚拟机。 在这种情况下,所有深度学习框架都会回退到 CPU 模式。
数据科学训练和培训
教授数据科学课程的企业培训师和教师通常提供虚拟机映像。 该映像确保学员具有一致的设置且示例以可预测方式工作。
DSVM 创建可缓解支持和不兼容性挑战的一致设置的按需环境。 这些环境需要频繁生成,特别是短期培训课程的情况从中获益极大。
DSVM 中包含哪些组件?
在此处查看 Windows 和 Linux DSVM 上的完整工具列表。
后续步骤
通过以下文章,了解详细信息:
Windows:
Linux: