什么是 Azure 机器学习计算实例?

Azure 机器学习计算实例是面向数据科学家的基于云的托管式工作站。

计算实例可让客户轻松地开始进行 Azure 机器学习开发,并为 IT 管理员提供管理和企业就绪功能。

可以使用计算实例作为在云中进行机器学习的完全配置和托管的开发环境。 还可以在开发和测试中将它们用作训练和推理的计算目标。

对于生产级模型训练,请使用具有多节点缩放功能的 Azure 机器学习计算群集。 对于生产级模型部署,请使用 Azure Kubernetes 服务群集

为了让计算实例 Jupyter 功能可以正常运行,请确保没有禁用 Web 套接字通信。 请确保网络允许到 *.instances.azureml.net 和 *.instances.azureml.ms 的 websocket 连接。

为何使用计算实例?

计算实例是完全托管式基于云的工作站,已针对机器学习开发环境进行优化。 它提供以下优势:

主要优点 描述
工作效率 可以在 Azure 机器学习工作室中使用集成的笔记本及以下工具来构建和部署模型:
- Jupyter
- JupyterLab
- VS Code(预览版)
- RStudio(预览版)
计算实例与 Azure 机器学习工作区和工作室完全集成。 你可以与工作区中的其他数据科学家共享笔记本和数据。
你还可以在计算实例中使用 VS Code
无需自行管理且安全 减少安全保护工作,增强企业的安全要求合规性。 计算实例提供可靠的管理策略和安全网络配置,例如:

- 通过资源管理器模板或 Azure 机器学习 SDK 自动预配
- Azure 基于角色的访问控制 (Azure RBAC)
- 虚拟网络支持
- 用于启用/禁用 SSH 访问的 SSH 策略
已启用 TLS 1.2
已针对 ML 进行了预配置 使用预配置的最新 ML 包、深度学习框架和 GPU 驱动程序完成设置任务,可节省时间。
完全可自定义 支持多种 Azure VM 类型,包括 GPU 和持久性低级自定义,例如,安装相应的包和驱动程序可以轻而易举地实现高级方案。

你可以自行创建计算实例,或者管理员可代表你创建计算实例

还可以使用安装脚本(预览版),以一种自动方式,根据需要自定义和配置计算实例。

工具和环境

重要

本文中标记了“(预览版)”的项目目前为公共预览版。 该预览版在提供时没有附带服务级别协议,建议不要将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

使用 Azure 机器学习计算实例可以在工作区中的完全集成式笔记本体验中创作、训练和部署模型。

使用计算实例作为远程服务器,无需 SSH 即可在 VS Code 中运行 Jupyter 笔记本。 也可以通过远程 SSH 扩展启用 VS Code 集成。

可以安装包,然后在计算实例中添加内核

计算实例上已安装以下工具和环境:

常规工具和环境 详细信息
驱动程序 CUDA
cuDNN
NVIDIA
Blob FUSE
Intel MPI 库
Azure CLI
Azure 机器学习示例
Docker
Nginx
NCCL 2.0
Protobuf
R 工具和环境 详细信息
RStudio Server 开源版(预览版)
R 内核
适用于 R 的 Azure 机器学习 SDK azuremlsdk
SDK 示例
PYTHON 工具和环境 详细信息
Anaconda Python
Jupyter 和扩展
Jupyterlab 和扩展
适用于 Python 的 Azure 机器学习 SDK
(来自 PyPI)
包括大多数 azureml 额外包。 若要查看完整列表,请打开计算实例上的终端窗口并运行
conda list -n azureml_py36 azureml*
其他 PyPI 包 jupytext
tensorboard
nbconvert
notebook
Pillow
Conda 包 cython
numpy
ipykernel
scikit-learn
matplotlib
tqdm
joblib
nodejs
nb_conda_kernels
深度学习包 PyTorch
TensorFlow
Keras
Horovod
MLFlow
pandas-ml
scrapbook
ONNX 包 keras2onnx
onnx
onnxconverter-common
skl2onnx
onnxmltools
Azure 机器学习 Python 和 R SDK 示例

Python 包都安装在“Python 3.8 - AzureML”环境中。 计算实例采用 Ubuntu 18.04 作为基础 OS。

访问文件

笔记本和 R 脚本存储在 Azure 文件共享中工作区的默认存储帐户内。 这些文件位于“用户文件”目录下。 通过此存储可以轻松地在计算实例之间共享笔记本。 停止或删除计算实例时,存储帐户还会安全保存笔记本。

工作区的 Azure 文件共享帐户作为驱动器装载到计算实例上。 此驱动器是 Jupyter、Jupyter Labs 和 RStudio 的默认工作目录。 这意味着,在 Jupyter、JupyterLab 或 RStudio 中创建的笔记本和其他文件会自动存储在文件共享上,并可在其他计算实例中使用。

可以从同一工作区中的所有计算实例访问文件共享中的文件。 对计算实例上的这些文件所做的任何更改将可靠地保存回到文件共享。

还可以将最新 Azure 机器学习示例克隆到工作区文件共享中“用户文件”目录下的文件夹内。

与写入到计算实例本地磁盘本身相比,在网络驱动器上写入小文件可能速度更慢。 若要写入许多小文件,请尝试直接在计算实例上使用某个目录,例如 /tmp 目录。 请注意,无法从其他计算实例访问这些文件。

请勿在笔记本文件共享上存储训练数据。 你可以使用计算实例上的 /tmp 目录来保存临时数据。 但是,请勿在计算实例的 OS 磁盘上写入非常大的数据文件。 计算实例上的 OS 磁盘容量为 128 GB。 还可以将临时训练数据存储在 /mnt 上装载的临时磁盘上。 临时磁盘大小可根据所选的 VM 大小进行配置,如果选择较大的 VM,则可存储更多数据。 还可以装载数据存储和数据集

管理计算实例

在 Azure 机器学习工作室中的工作区内选择“计算”,然后在顶部选择“计算实例”。

管理计算实例

有关管理计算实例的详细信息,请参阅创建和管理 Azure 机器学习计算实例

创建计算实例

作为管理员,你可以为工作区中的其他人创建计算实例(预览版)

还可以使用安装脚本(预览版),以一种自动方式自定义和配置计算实例。

若要为自己创建计算实例,请在 Azure 机器学习工作室中使用工作区,当你准备好运行某个笔记本时,请从“计算”部分或“笔记本”部分创建新的计算实例

也可以通过以下方式创建实例

对于每个区域每个虚拟机 (VM) 系列配额和创建计算实例时应用的区域总配额,专用内核数一致,且该数量与 Azure 机器学习训练计算群集配额共享。 停止计算实例不会释放配额,因此无法确保你能够重启计算实例。 请不要通过在 OS 终端上执行 sudo 关闭来停止计算实例。

计算实例附带 P10 OS 磁盘。 临时磁盘类型取决于所选的 VM 大小。 目前无法更改 OS 磁盘类型。

计算目标

计算实例可用作类似于 Azure 机器学习计算训练群集的训练计算目标

计算实例:

  • 具有作业队列。
  • 在虚拟网络环境中安全地运行作业,无需企业打开 SSH 端口。 作业在容器化环境中执行,并将模型依赖项打包到 Docker 容器中。
  • 可以并行运行多个小型作业(预览版)。 每个核心可以并行运行两个作业,而剩余的作业将排队。
  • 支持单节点多 GPU 分布式训练作业

可以使用计算实例作为测试/调试方案的本地推理部署目标。

提示

计算实例具有 120GB 的 OS 磁盘。 如果磁盘空间耗尽,你进入不可用状态,请删除文件/文件夹,从而通过计算实例终端为 OS 磁盘(装载在 / 上)清理至少 5 GB 的磁盘空间,然后执行 sudo reboot。 若要访问终端,请前往计算列表页或计算实例详细信息页,然后单击“终端”链接。 你可在终端上运行 df -h,检查可用磁盘空间。 执行 sudo reboot 前,请至少清理 5 GB 空间。 在清理 5 GB 磁盘空间之前,请不要通过工作室停止或重启计算实例。

后续步骤