快速入门:设置适用于 Linux (Ubuntu) 的 Data Science Virtual Machine

使用 Ubuntu 20.04 Data Science Virtual Machine (DSVM) 和 Azure DSVM for PyTorch 启动并运行。

先决条件

需要 Azure 订阅才能创建 Ubuntu 20.04 Data Science Virtual Machine 或 Azure DSVM for PyTorch。

Azure 试用版不支持由 GPU 提供支持的虚拟机 (VM) SKU。

创建适用于 Linux 的数据科学虚拟机

要创建 Ubuntu 20.04 DSVM 或适用于 PyTorch 的 Azure DSVM 的实例,请执行以下操作:

  1. 转到 Azure 门户。 如果尚未登录,则可能会收到登录 Azure 帐户的提示。

  2. 输入 Data Science Virtual Machine 来查找 VM 列表。 然后选择 Data Science Virtual Machine - Ubuntu 20.04适用于 PyTorch 的 Azure DSVM

  3. 选择创建

  4. 在“创建虚拟机”窗格中,填写“基本信息”选项卡:

    • 订阅:如果有多个订阅,请选择要在其上创建虚拟机并对其计费的订阅。 必须具有此订阅的资源创建权限。

    • 资源组:新建资源组,或使用现有资源组。

    • 虚拟机名称:输入 VM 的名称。 此名称在 Azure 门户中使用。

    • 区域:选择最合适的数据中心。 为获得最快的网络访问速度,托管大部分数据或距离你所在物理位置最近的数据中心将是最佳选择。 有关详细信息,请参阅 Azure 区域

    • 图像:请勿更改默认值。

    • 大小:此选项应自动填充为适合一般工作负荷的大小。 有关详细信息,请参阅 Azure 中的 Linux VM 大小

    • 身份验证类型:若要更快地设置,请选择“密码”。

      注意

      如果计划使用 JupyterHub,请确保选择“密码”,因为将 JupyterHub 配置为使用 SSH 协议公钥。

    • 用户名:输入管理员用户名。 使用此用户名登录到 VM。 此用户名不需要与 Azure 用户名匹配。 请勿使用大写字母。

      重要

      如果在用户名中使用大写字母,JupyterHub 将无法正常工作,并且你将遇到 500 内部服务器错误。

    • 密码:输入计划用于登录 VM 的密码。

  5. 选择“查看 + 创建”。

  6. 在“查看 + 创建”窗格上:

    • 验证输入的所有信息是否正确。
    • 选择创建

    设置过程大约需要 5 分钟。 在 Azure 门户中可以查看 VM 的状态。

访问 Ubuntu Data Science Virtual Machine

可以通过以下四种方式之一访问 Ubuntu DSVM:

  • 终端会话 SSH
  • 图形会话 xrdp
  • X2Go 图形会话
  • Jupyter 笔记本的 JupyterHub 和 JupyterLab

SSH

如果使用 SSH 身份验证配置了 VM,可以使用在步骤 4 的“基本信息”部分中为文本 shell 接口创建的帐户凭据进行登录。 有关详细信息,请参阅“详细了解如何连接到 Linux VM”。

xrdp

xrdp 是用于访问 Linux 图形会话的标准工具。 虽然发行版默认不包含此工具,但这些说明说明了如何安装它。

X2Go

注意

在测试中,X2Go 客户端的性能优于 X11 转发。 建议对图形桌面界面使用 X2Go 客户端。

Linux VM 已预配了 X2Go Server,并且已准备好接受客户端连接。 若要连接到 Linux VM 图形桌面,请在客户端上完成以下过程:

  1. X2Go 为客户端平台下载并安装 X2Go 客户端。

  2. 记下 VM 的公共 IP 地址。 在 Azure 门户中,打开创建的虚拟机以查找此信息。

    显示 VM 公共 IP 地址字段的屏幕截图。

  3. 运行 X2Go 客户端。 如果“新建会话”窗格未自动弹出,请选择“会话>新建会话”。

  4. 在显示的配置窗格中,输入以下配置参数:

    • 会话一致性
      • 主机:输入你之前记下的 VM 的 IP 地址。
      • 登录名:输入 Linux VM 上的用户名。
      • SSH 端口:保留默认值 22
      • 会话类型:将值更改为 XFCE。 Linux VM 目前仅支持 XFCE 桌面。
    • 媒体:如果无需使用声音支持和客户端打印功能,可将其关闭。
    • 共享文件夹:使用此选项卡添加要在 VM 上装载的客户端计算机目录。

    显示新 X2Go 会话首选项的屏幕截图。

  5. 选择“确定”

  6. 选择 X2Go 窗格右侧窗格中的框以显示 VM 的登录窗格。

  7. 输入 VM 的密码。

  8. 选择“确定”

  9. 可能需要授予 X2Go 权限才能绕过防火墙来完成连接过程。

  10. 现在应会看到 Ubuntu DSVM 的图形界面。

JupyterHub 和 JupyterLab

Ubuntu DSVM 运行多用户 Jupyter 服务器 JupyterHub。 若要连接,请执行以下步骤:

  1. 记下 VM 的公共 IP 地址。 若要查找此值,请在 Azure 门户中搜索并选择 VM,如以下屏幕截图所示。

    显示“VM 公共 IP 地址”字段的屏幕截图。

  2. 从本地计算机打开 Web 浏览器并转到 https://your-vm-ip:8000。 将 your-vm-ip 替换为前面记录的 IP 地址。

  3. 浏览器可能会阻止你直接打开窗格。 它可能会告诉你存在证书错误。 DSVM 会提供自签名证书的安全性。 大多数浏览器都允许你在此警告后选择浏览余下内容。 许多浏览器会继续在整个 Web 会话中提供有关证书的某种视觉警告。

    如果在浏览器中看到 ERR_EMPTY_RESPONSE 错误消息,请确保通过显式使用 HTTPS 协议来访问计算机。 HTTP 或仅 Web 地址不适用于此步骤。 如果在地址行中输入不带 https:// 的 web 地址,则大多数浏览器将默认为 http,并会显示错误。

  4. 输入用于创建 VM 的用户名和密码,然后登录,如以下屏幕截图所示。

    显示 JupyterHub 登录窗格的屏幕截图。

    如果在此阶段收到 500 错误,则很可能是因为在用户名中使用了大写字母。 此问题是 JupyterHub 与其使用的 PAM 身份验证器之间的已知交互。

    如果收到“无法访问此页面”错误,很可能需要调整你的网络安全组权限。 在 Azure 门户中,查找资源组中的 NSG 资源。 若要从公共 Internet 访问 JupyterHub,必须打开端口 8000。 (以下图像显示此 VM 已配置为实时访问,强烈建议使用此配置。有关详细信息,请参阅使用实时访问保护管理端口。)

    显示 NSG 配置值的屏幕截图。

  5. 浏览可用的示例笔记本。

也会提供 JupyterLab(下一代的 Jupyter 笔记本和 JupyterHub)。 若要访问,请登录 JupyterHub。 然后浏览到 URL https://your-vm-ip:8000/user/your-username/lab。 将用户名替换为配置 VM 时选择的用户名。 同样,潜在的证书错误最初可能会阻止你访问站点。

若要将 JupyterLab 设置为默认笔记本服务器,请将此行添加到 /etc/jupyterhub/jupyterhub_config.py

c.Spawner.default_url = '/lab'

后续步骤

  • 请查看“适用于 Linux 的 Data Science Virtual Machine 上的数据科学”演练,了解如何使用此处预配的 Linux DSVM 执行多种常见的数据科学任务。
  • 请尝试本文介绍的工具以探索 DSVM 上的各种数据科学工具。 还可以在 VM 上的 shell 中运行 dsvm-more-info,获取有关 VM 上安装的工具的基本介绍和信息指南。
  • 了解如何使用 Team Data Science Process 系统地生成分析解决方案。
  • 查看 Azure AI 库,获取使用 Azure AI 服务的机器学习和数据分析示例。
  • 请查看此 VM 的相应参考文档