数据科学虚拟机数据引入工具

数据科学或 AI 项目中的初始技术步骤之一就是必须识别要使用的数据集并将其引入到分析环境中。 Data Science Virtual Machine (DSVM) 提供工具和库,可将来自不同来源的数据导入 DSVM 上的本地分析数据存储,或者云或本地的数据平台中。

下面是 DSVM 中可用的一些数据移动工具。

Azure CLI

类别
它是什么? Azure 的管理工具。 它还包含可从 Azure 数据平台(如 Azure Blob 存储和 Azure Data Lake Storage)移动数据的命令谓词。
支持的 DSVM 版本 Windows、Linux
典型用途 从 Azure 存储、Azure Data Lake Store 导出数据或将数据导入其中。
如何使用/运行它? 打开命令提示符,键入 az 可获取帮助。
指向示例的链接 使用 Azure CLI

AzCopy

类别
它是什么? 用于从本地文件、Azure BLob 存储、文件和表复制数据以及将数据复制到其中的工具。
支持的 DSVM 版本 Windows
典型用途 将文件复制到 Azure Blob 存储以及在帐户之间复制 Blob。
如何使用/运行它? 打开命令提示符,键入 azcopy 可获取帮助。
指向示例的链接 AzCopy on Windows

Azure Cosmos DB 数据迁移工具

-- --
它是什么? 将不同来源的数据导入 Azure Cosmos DB(一种云中的 NoSQL 数据库)的工具。 这些数据可以来源于 JSON 文件、CSV 文件、SQL、MongoDB、Azure 表存储、Amazon DynamoDB 以及 Azure Cosmos DB for NoSQL 集合。
支持的 DSVM 版本 Windows
典型用途 将文件从 VM 导入 Azure Cosmos DB,将数据从 Azure 表存储导入 Azure Cosmos DB 以及将数据从 Microsoft SQL Server 数据库导入 Azure Cosmos DB。
如何使用/运行它? 要使用命令行版本,请打开命令提示符,键入 dt。 要使用 GUI 工具,请打开命令提示符,键入 dtui
指向示例的链接 将数据导入 Azure Cosmos DB

Azure 存储资源管理器

类别
它是什么? 用于与 Azure 云中存储的文件进行交互的图形用户界面。
支持的 DSVM 版本 Windows
典型用途 从 DSVM 导出数据或将数据导入其中。
如何使用/运行它? 在“开始”菜单中搜索“Azure 存储资源管理器”。
指向示例的链接 Azure 存储资源管理器

bcp

类别
它是什么? 在 SQL Server 和数据文件之间复制数据的 SQL Server 工具。
支持的 DSVM 版本 Windows
典型用途 将 CSV 文件导入到 SQL Server 表中以及将 SQL Server 表导出到文件。
如何使用/运行它? 打开命令提示符,键入 bcp 可获取帮助。
指向示例的链接 bcp 实用工具

blobfuse

类别
它是什么? 用于在 Linux 文件系统中装载 Azure Blob 存储容器的工具。
支持的 DSVM 版本 Linux
典型用途 读取和写入到容器中的 Blob。
如何使用和运行它? 在终端中运行 blobfuse
指向示例的链接 GitHub 上的 blobfuse