快速入门:设置适用于 Linux (Ubuntu) 的 Data Science Virtual Machine
使用 Ubuntu 20.04 Data Science Virtual Machine 和 Azure DSVM for PyTorch 启动并运行。
先决条件
若要创建 Ubuntu 20.04 Data Science Virtual Machine 或 an Azure DSVM for PyTorch,必须具备 Azure 订阅。 免费试用 Azure。
注意
Azure 试用版订阅不支持由 GPU 提供支持的虚拟机 SKU。
创建适用于 Linux 的数据科学虚拟机
下面是创建 Ubuntu 20.04 Data Science Virtual Machine 或 Azure DSVM for PyTorch 实例的步骤:
转到 Azure 门户。 如果你尚未登录到 Azure 帐户,系统可能会提示你登录。
查找虚拟机列表,方法是键入“data Science virtual machine”并选择“Data Science Virtual Machine- Ubuntu 20.04”或“Azure DSVM for PyTorch”
在下一个窗口上选择“创建”。
你应该被重定向到“创建虚拟机”边栏选项卡。
输入以下信息以配置向导的每个步骤:
基本信息:
订阅:如果有多个订阅,请选择要在其上创建虚拟机并对其计费的订阅。 必须具有此订阅的资源创建权限。
资源组:新建资源组,或使用现有资源组。
虚拟机名称:输入虚拟机的名称。 此名称在你的 Azure 门户中使用。
区域:选择最合适的数据中心。 为获得最快的网络访问速度,请选择包含大部分数据,或者最接近实际位置的数据中心。 详细了解 Azure 区域。
映像:保留默认值。
大小:此选项应自动填充为适合一般工作负荷的大小。 详细了解 Azure 中的 Linux VM 大小。
身份验证类型:为了更快地设置,请选择“密码”。
注意
如果打算使用 JupyterHub,请确保选择“密码”,因为 JupyterHub 未配置为使用 SSH 公钥。
用户名:输入管理员用户名。 你使用此用户名登录你的虚拟机。 此用户名无需与 Azure 用户名相同。 不要使用大写字母。
重要
如果在用户名中使用大写字母,JupyterHub 将无法正常工作,并且你将遇到 500 内部服务器错误。
密码:输入将用于登录到虚拟机的密码。
选择“查看 + 创建”。
查看 + 创建
- 验证输入的所有信息是否正确。
- 选择“创建”。
预配大约需要 5 分钟。 状态将显示在 Azure 门户中。
如何访问 Ubuntu Data Science Virtual Machine
可以通过以下四种方式之一访问 Ubuntu DSVM:
- 终端会话 SSH
- 图形会话 xrdp
- X2Go 图形会话
- Jupyter 笔记本的 JupyterHub 和 JupyterLab
SSH
如果使用 SSH 身份验证配置了 VM,可以使用在步骤 3 的“基本信息”部分中为文本 shell 接口创建的帐户凭据进行登录。 详细了解如何连接到 Linux VM。
xrdp
xrdp 是用于访问 Linux 图形会话的标准工具。 虽然默认情况下,发行版中不包含此工具,但你可以按照以下说明进行安装。
X2Go
注意
在测试方面,X2Go 客户端的性能优于 X11 转发。 建议对图形桌面界面使用 X2Go 客户端。
Linux VM 已通过 X2Go 服务器进行预配并且可接受客户端连接。 若要连接到 Linux VM 图形桌面,请在客户端上完成以下过程:
从 X2Go 为客户端平台下载并安装 X2Go 客户端。
请记下虚拟机的公共 IP 地址,可以通过在 Azure 门户中打开创建的虚拟机找到该地址。
运行 X2Go 客户端。 如果“新建会话”窗口未自动弹出,请转到“会话”->“新建会话”。
在显示的配置窗口中,输入以下配置参数:
- 会话选项卡:
- 主机:输入之前记下的 VM 的 IP 地址。
- 登录名:输入 Linux VM 上的用户名。
- SSH 端口:保留默认值 22。
- 会话类型:将值更改为“XFCE”。 Linux VM 目前仅支持 XFCE 桌面。
- 媒体选项卡:如果无需使用声音支持和客户端打印功能,可将其关闭。
- 共享文件夹:使用此选项卡添加要装载到 VM 上的客户端计算机目录。
- 会话选项卡:
选择“确定”。
单击 X2Go 窗口右窗格中的框以调出 VM 的登录屏幕。
输入 VM 的密码。
选择“确定” 。
可能必须授予 X2Go 绕过防火墙的权限才能完成连接。
现在应会看到 Ubuntu DSVM 的图形界面。
JupyterHub 和 JupyterLab
Ubuntu DSVM 运行 JupyterHub,一个多用户 Jupyter 服务器。 若要连接,请执行以下步骤:
通过在 Azure 门户中搜索并选择 VM,记下 VM 的公共 IP 地址。
在本地计算机上,打开 Web 浏览器,然后导航到 https://your-vm-ip:8000,将“your-vm-ip”替换为之前记下的 IP 地址。
浏览器可能会阻止你直接打开页面,并告知你存在证书错误。 DSVM 通过自签名证书提供安全性。 大多数浏览器都允许你在此警告后单击浏览余下内容。 许多浏览器会继续在整个 Web 会话中提供有关证书的某种视觉警告。
注意
如果在浏览器中看到
ERR_EMPTY_RESPONSE
错误消息,请确保使用 HTTPS 协议访问计算机,而不是使用 HTTP 或仅使用 Web 地址 。 如果在地址行中键入不带https://
的 web 地址,则大多数浏览器将默认为http
,并会显示此错误。输入用于创建 VM 的用户名和密码,然后登录。
注意
如果在此阶段收到 500 错误,很可能是因为在用户名中使用了大写字母。 这是 Jupyter 中心与其使用的 PAMAuthenticator 之间的一种已知交互。 如果收到“无法访问此页面”错误,很可能需要调整你的网络安全组权限。 在 Azure 门户中,查找资源组中的网络安全组资源。 若要从公共 Internet 访问 JupyterHub,必须打开端口 8000。 (图像显示此 VM 已配置为实时访问,这是强烈推荐的做法。请参阅通过实时访问保护管理端口。)
浏览许多可用的示例笔记本。
也会提供 JupyterLab(下一代的 Jupyter 笔记本和 JupyterHub)。 若要访问它,请登录到 JupyterHub,然后浏览到 URL https://your-vm-ip:8000/user/your-username/lab,将“your-username”替换为在配置 VM 时选择的用户名。 同样,由于证书错误,系统一开始可能就会阻止你访问站点。
可以通过将此行添加到 /etc/jupyterhub/jupyterhub_config.py
,将 JupyterLab 设置为默认 Notebook 服务器:
c.Spawner.default_url = '/lab'
后续步骤
以下是继续学习和探索的方法:
- 适用于 Linux 的 Data Science Virtual Machine 上的数据科学演练演示了如何使用此处预配的 Linux DSVM 执行多种常见的数据科学任务。
- 请在 DSVM 上尝试探索本文中所述的各种数据科学工具。 还可以在虚拟机上的 shell 中运行
dsvm-more-info
,获取有关 VM 上安装的工具的基本介绍和信息指南。 - 了解如何使用 Team Data Science Process 系统地生成分析解决方案。
- 访问 Azure AI 库,获取使用 Azure AI 服务的机器学习和数据分析示例。
- 请参阅此虚拟机的相应参考文档。