Azure Data Science Virtual Machine 中包含哪些工具?
Data Science Virtual Machine 是在云中浏览数据和进行机器学习的一种简单方法。 Data Science Virtual Machine 已预先配置了完整的操作系统、安全修补程序、驱动程序和常用的数据科学和开发软件。 可以选择硬件环境,选择范围包括低成本的以 CPU 为中心的计算机,以及具有多个 GPU、NVMe 存储和大量内存的极强大计算机。 对于具有 GPU 的计算机,我们安装了所有驱动程序,对所有机器学习框架进行了版本匹配以确保 GPU 兼容性,并且在支持 GPU 的所有应用程序软件中启用了加速。
Data Science Virtual Machine 预装有最实用的数据科学工具。
构建深度学习和机器学习解决方案
工具 | Windows Server 2019 DSVM | Windows Server 2022 DSVM | Ubuntu 20.04 DSVM | 使用注意事项 |
---|---|---|---|---|
CUDA、cuDNN、NVIDIA 驱动程序 | ✅ | ✅ | ✅ |
DSVM 上的 CUDA、cuDNN、NVIDIA 驱动程序 |
Horovod | ❌ | ❌ | ✅ | DSVM 上的 Horovod |
NVidia System Management Interface (nvidia-smi) | ✅ | ✅ | ✅ | DSVM 上的 nvidia-smi |
PyTorch | ✅ | ✅ | ✅ | DSVM 上的 PyTorch |
TensorFlow | ✅ | ✅ |
✅ | DSVM 上的 TensorFlow |
与 Azure 机器学习 (Python) 集成 | ✅ (Python SDK、示例) |
✅ (Python SDK、示例) |
✅ (Python SDK、CLI、示例) |
Azure 机器学习 SDK |
XGBoost | ✅ (CUDA 支持) |
✅ (CUDA 支持) |
✅ (CUDA 支持) |
DSVM 上的 XGBoost |
Vowpal Wabbit | ✅ | ✅ | ✅ |
DSVM 上的 Vowpal Wabbit |
Weka | ❌ | ❌ | ❌ | |
LightGBM | ❌ | ❌ | ✅ (GPU 和 MPI 支持) |
|
H2O | ❌ | ❌ | ✅ | |
CatBoost | ❌ | ❌ | ✅ | |
Intel MKL | ❌ | ❌ | ✅ | |
OpenCV | ❌ | ❌ | ✅ | |
Dlib | ❌ | ❌ | ✅ | |
Docker | ✅ (仅限 Windows 容器) |
✅ (仅限 Windows 容器) |
✅ | |
Nccl | ❌ | ❌ | ✅ | |
Rattle | ❌ | ❌ | ❌ | |
ONNX 运行时 | ❌ | ❌ | ✅ |
存储、检索和操作数据
工具 | Windows Server 2019 DSVM | Windows Server 2022 DSVM | Ubuntu 20.04 DSVM | 使用注意事项 |
---|---|---|---|---|
关系数据库 | SQL Server 2019 Developer Edition |
SQL Server 2019 Developer Edition |
SQL Server 2019 Developer Edition |
DSVM 上的 SQL Server |
数据库工具 | SQL Server Management Studio SQL Server Integration Services bcp、sqlcmd |
SQL Server Management Studio SQL Server Integration Services bcp、sqlcmd |
SQuirreL SQL(查询工具) bcp、sqlcmd ODBC/JDBC 驱动程序 |
|
Azure 存储资源管理器 | ✅ |
✅ |
||
Azure CLI | ✅ |
✅ |
✅ |
|
AzCopy | ✅ |
✅ |
❌ | DSVM 上的 AzCopy |
Blob FUSE 驱动程序 | ❌ | ❌ | ❌ |
DSVM 上的 blobfuse |
Azure Cosmos DB 数据迁移工具 | ✅ | ✅ | ❌ | DSVM 上的 Azure Cosmos DB |
Unix/Linux 命令行工具 | ❌ | ❌ | ✅ | |
Apache Spark 3.1(独立版) | ✅ | ✅ | ✅ |
使用 Python、R、Julia 和 Node.js 编程
工具 | Windows Server 2019 DSVM | Windows Server 2022 DSVM | Ubuntu 20.04 DSVM | 使用注意事项 |
---|---|---|---|---|
预安装了常用包的 CRAN-R | ✅ | ✅ | ✅ | |
预安装了常用包的 Anaconda Python | ✅ | ✅ (Miniconda) |
✅ (Miniconda) |
|
Julia (Julialang) | ✅ | ✅ | ✅ | |
JupyterHub(多用户 Notebook 服务器) | ❌ | ❌ | ✅ | |
JupyterLab(多用户 Notebook 服务器) | ✅ | ✅ | ✅ | |
Node.js | ✅ | ✅ | ✅ | |
带有以下内核的 Jupyter Notebook Server | ✅ |
✅ |
✅ | Jupyter Notebook 示例 |
R | R Jupyter 示例 | |||
Python | Python Jupyter 示例 | |||
Julia | Julia Jupyter 示例 | |||
PySpark | pySpark Jupyter 示例 |
Ubuntu 20.04 DSVM、Windows Server 2019 DSVM 和 Windows Server 2022 DSVM 具有以下 Jupyter 内核:-
- Python3.8-default
- Python3.8-Tensorflow-Pytorch
- Python3.8-AzureML
- R
- Python 3.7 - Spark(本地)
- Julia 1.6.0
- R Spark – HDInsight
- Scala Spark – HDInsight
- Python 3 Spark - HDInsight
Ubuntu 20.04 DSVM、Windows Server 2019 DSVM 和 Windows Server 2022 DSVM 具有以下 conda 环境:-
- Python3.8-default
- Python3.8-Tensorflow-Pytorch
- Python3.8-AzureML
使用你喜欢的编辑器或 IDE
工具 | Windows Server 2019 DSVM | Windows Server 2022 DSVM | Ubuntu 20.04 DSVM | 使用注意事项 |
---|---|---|---|---|
Notepad++ | ✅ |
✅ |
❌ |
|
Nano | ✅ |
✅ |
❌ |
|
Visual Studio 2019 Community Edition | ✅ |
✅ | ❌ | DSVM 上的 Visual Studio |
Visual Studio Code | ✅ |
✅ |
✅ |
DSVM 上的 Visual Studio Code |
PyCharm Community Edition | ✅ |
✅ |
✅ |
DSVM 上的 PyCharm |
IntelliJ IDEA | ❌ | ❌ | ✅ | |
Vim | ❌ | ❌ | ✅ |
|
Emacs | ❌ | ❌ | ✅ |
|
Git 和 Git Bash | ✅ |
✅ |
✅ |
|
OpenJDK 11 | ✅ |
✅ |
✅ |
|
.NET Framework | ✅ |
✅ |
❌ | |
Azure SDK | ✅ |
✅ | ✅ |
组织和展示结果
工具 | Windows Server 2019 DSVM | Windows Server 2022 DSVM | Ubuntu 20.04 DSVM | 使用注意事项 |
---|---|---|---|---|
Microsoft 365(Word、Excel、PowerPoint) | ✅ | ✅ | ❌ | |
Microsoft Teams | ✅ | ✅ | ❌ | |
Power BI Desktop | ✅ | ✅ |
❌ | |
Microsoft Edge 浏览器 | ✅ | ✅ | ✅ |