快速入门:设置适用于 Linux (Ubuntu) 的 Data Science Virtual Machine

使用 Ubuntu 20.04 Data Science Virtual Machine 和 Azure DSVM for PyTorch 启动并运行。

先决条件

若要创建 Ubuntu 20.04 Data Science Virtual Machine 或 an Azure DSVM for PyTorch,必须具备 Azure 订阅。 免费试用 Azure

注意

Azure 试用版订阅不支持由 GPU 提供支持的虚拟机 SKU。

创建适用于 Linux 的数据科学虚拟机

下面是创建 Ubuntu 20.04 Data Science Virtual Machine 或 Azure DSVM for PyTorch 实例的步骤:

  1. 转到 Azure 门户。 如果你尚未登录到 Azure 帐户,系统可能会提示你登录。

  2. 查找虚拟机列表,方法是键入“data Science virtual machine”并选择“Data Science Virtual Machine- Ubuntu 20.04”或“Azure DSVM for PyTorch”

  3. 在下一个窗口上选择“创建”。

  4. 你应该被重定向到“创建虚拟机”边栏选项卡。

  5. 输入以下信息以配置向导的每个步骤:

    1. 基本信息:

      • 订阅:如果有多个订阅,请选择要在其上创建虚拟机并对其计费的订阅。 必须具有此订阅的资源创建权限。

      • 资源组:新建资源组,或使用现有资源组。

      • 虚拟机名称:输入虚拟机的名称。 此名称在你的 Azure 门户中使用。

      • 区域:选择最合适的数据中心。 为获得最快的网络访问速度,请选择包含大部分数据,或者最接近实际位置的数据中心。 详细了解 Azure 区域

      • 映像:保留默认值。

      • 大小:此选项应自动填充为适合一般工作负荷的大小。 详细了解 Azure 中的 Linux VM 大小

      • 身份验证类型:为了更快地设置,请选择“密码”。

        注意

        如果打算使用 JupyterHub,请确保选择“密码”,因为 JupyterHub 未配置为使用 SSH 公钥。

      • 用户名:输入管理员用户名。 你使用此用户名登录你的虚拟机。 此用户名无需与 Azure 用户名相同。 不要使用大写字母。

        重要

        如果在用户名中使用大写字母,JupyterHub 将无法正常工作,并且你将遇到 500 内部服务器错误。

      • 密码:输入将用于登录到虚拟机的密码。

    2. 选择“查看 + 创建”。

    3. 查看 + 创建

      • 验证输入的所有信息是否正确。
      • 选择“创建”。

    预配大约需要 5 分钟。 状态将显示在 Azure 门户中。

如何访问 Ubuntu Data Science Virtual Machine

可以通过以下四种方式之一访问 Ubuntu DSVM:

  • 终端会话 SSH
  • 图形会话 xrdp
  • X2Go 图形会话
  • Jupyter 笔记本的 JupyterHub 和 JupyterLab

SSH

如果使用 SSH 身份验证配置了 VM,可以使用在步骤 3 的“基本信息”部分中为文本 shell 接口创建的帐户凭据进行登录。 详细了解如何连接到 Linux VM

xrdp

xrdp 是用于访问 Linux 图形会话的标准工具。 虽然默认情况下,发行版中不包含此工具,但你可以按照以下说明进行安装

X2Go

注意

在测试方面,X2Go 客户端的性能优于 X11 转发。 建议对图形桌面界面使用 X2Go 客户端。

Linux VM 已通过 X2Go 服务器进行预配并且可接受客户端连接。 若要连接到 Linux VM 图形桌面,请在客户端上完成以下过程:

  1. X2Go 为客户端平台下载并安装 X2Go 客户端。

  2. 请记下虚拟机的公共 IP 地址,可以通过在 Azure 门户中打开创建的虚拟机找到该地址。

    Ubuntu machine IP address

  3. 运行 X2Go 客户端。 如果“新建会话”窗口未自动弹出,请转到“会话”->“新建会话”。

  4. 在显示的配置窗口中,输入以下配置参数:

    • 会话选项卡
      • 主机:输入之前记下的 VM 的 IP 地址。
      • 登录名:输入 Linux VM 上的用户名。
      • SSH 端口:保留默认值 22。
      • 会话类型:将值更改为“XFCE”。 Linux VM 目前仅支持 XFCE 桌面。
    • 媒体选项卡:如果无需使用声音支持和客户端打印功能,可将其关闭。
    • 共享文件夹:使用此选项卡添加要装载到 VM 上的客户端计算机目录。

    X2go configuration

  5. 选择“确定”

  6. 单击 X2Go 窗口右窗格中的框以调出 VM 的登录屏幕。

  7. 输入 VM 的密码。

  8. 选择“确定” 。

  9. 可能必须授予 X2Go 绕过防火墙的权限才能完成连接。

  10. 现在应会看到 Ubuntu DSVM 的图形界面。

JupyterHub 和 JupyterLab

Ubuntu DSVM 运行 JupyterHub,一个多用户 Jupyter 服务器。 若要连接,请执行以下步骤:

  1. 通过在 Azure 门户中搜索并选择 VM,记下 VM 的公共 IP 地址。 Ubuntu machine IP address

  2. 在本地计算机上,打开 Web 浏览器,然后导航到 https://your-vm-ip:8000,将“your-vm-ip”替换为之前记下的 IP 地址。

  3. 浏览器可能会阻止你直接打开页面,并告知你存在证书错误。 DSVM 通过自签名证书提供安全性。 大多数浏览器都允许你在此警告后单击浏览余下内容。 许多浏览器会继续在整个 Web 会话中提供有关证书的某种视觉警告。

    注意

    如果在浏览器中看到 ERR_EMPTY_RESPONSE 错误消息,请确保使用 HTTPS 协议访问计算机,而不是使用 HTTP 或仅使用 Web 地址 。 如果在地址行中键入不带 https:// 的 web 地址,则大多数浏览器将默认为 http,并会显示此错误。

  4. 输入用于创建 VM 的用户名和密码,然后登录。

    Enter Jupyter login

    注意

    如果在此阶段收到 500 错误,很可能是因为在用户名中使用了大写字母。 这是 Jupyter 中心与其使用的 PAMAuthenticator 之间的一种已知交互。 如果收到“无法访问此页面”错误,很可能需要调整你的网络安全组权限。 在 Azure 门户中,查找资源组中的网络安全组资源。 若要从公共 Internet 访问 JupyterHub,必须打开端口 8000。 (图像显示此 VM 已配置为实时访问,这是强烈推荐的做法。请参阅通过实时访问保护管理端口。)Configuration of Network Security Group

  5. 浏览许多可用的示例笔记本。

也会提供 JupyterLab(下一代的 Jupyter 笔记本和 JupyterHub)。 若要访问它,请登录到 JupyterHub,然后浏览到 URL https://your-vm-ip:8000/user/your-username/lab,将“your-username”替换为在配置 VM 时选择的用户名。 同样,由于证书错误,系统一开始可能就会阻止你访问站点。

可以通过将此行添加到 /etc/jupyterhub/jupyterhub_config.py,将 JupyterLab 设置为默认 Notebook 服务器:

c.Spawner.default_url = '/lab'

后续步骤

以下是继续学习和探索的方法:

  • 适用于 Linux 的 Data Science Virtual Machine 上的数据科学演练演示了如何使用此处预配的 Linux DSVM 执行多种常见的数据科学任务。
  • 请在 DSVM 上尝试探索本文中所述的各种数据科学工具。 还可以在虚拟机上的 shell 中运行 dsvm-more-info,获取有关 VM 上安装的工具的基本介绍和信息指南。
  • 了解如何使用 Team Data Science Process 系统地生成分析解决方案。
  • 访问 Azure AI 库,获取使用 Azure AI 服务的机器学习和数据分析示例。
  • 请参阅此虚拟机的相应参考文档