Azure Data Lake Storage Gen2 简介

Azure Data Lake Storage Gen2 是一组专用于大数据分析的功能,基于 Azure Blob 存储而构建。

专为企业大数据分析而设计

Data Lake Storage Gen2 使 Azure 存储成为在 Azure 上构建企业 Data Lake 的基础。 Data Lake Storage Gen2 从一开始就设计为存储数千万亿字节的信息,同时保持数百千兆位的吞吐量,允许你轻松管理大量数据。

Data Lake Storage Gen2 的一个基本部分是向 Blob 存储添加分层命名空间。 分层命名空间将对象/文件组织到目录层次结构中,以便进行有效的数据访问。 常见的对象存储命名约定在名称中使用斜杠来模拟分层目录结构。 这种结构在 Data Lake Storage Gen2 中得以真正实现。 重命名或删除目录等操作会成为目录上的单个原子元数据操作。 无需枚举和处理共享目录名称前缀的所有对象。

Data Lake Storage Gen2 在 Blob 存储的基础上构建,并通过以下方式增强了性能、管理和安全性:

  • 优化了性能,因为你不需要将复制或转换数据作为分析的先决条件。 与 Blob 存储上的平面命名空间相比,分层命名空间极大地提高了目录管理操作的性能,从而提高了整体作业性能。

  • 管理更为容易,因为你可以通过目录和子目录来组织和操作文件。

  • 安全性是可以强制实施的,因为可以在目录或单个文件上定义 POSIX 权限。

另外,Data Lake Storage Gen2 非常经济高效,因为它构建在低成本的 Azure Blob 存储之上。 这些额外功能进一步降低了在 Azure 上运行大数据分析的总拥有成本。

Data Lake Storage Gen2 的主要功能

  • Hadoop 兼容访问:Data Lake Storage Gen2 允许你管理和访问数据,就像在 Hadoop 分布式文件系统 (HDFS) 中一样。 ABFS 驱动程序(用于访问数据)在所有 Apache Hadoop 环境中都可用。 这些环境包括 Azure HDInsightAzure Databricks 和 Azure Synapse Analytics。

  • POSIX 权限的超集: Data Lake Gen2 的安全模型支持 ACL 和 POSIX 权限,以及特定于 Data Lake Storage Gen2 的一些额外粒度。 可以使用存储资源管理器、Azure 门户、PowerShell、Azure CLI、REST API、Azure 存储 SDK 或使用 Hive 和 Spark 等框架来配置设置。

  • 成本效益:Data Lake Storage Gen2 提供了低成本的存储容量和事务。 Azure Blob 存储生命周期等功能可在数据在其生命周期中进行转换时优化成本。

  • 优化的驱动程序: ABFS 驱动程序专门针对大数据分析而进行优化。 相应的 REST API 通过终结点 dfs.core.chinacloudapi.cn 进行显示。

可伸缩性

按照设计,无论是通过 Data Lake Storage Gen2 还是 Blob 存储接口进行访问,Azure 存储都可自如缩放。 它可以存储和处理许多百亿亿字节的数据。 这种存储量可用于在每秒高级别的输入/输出操作 (IOPS) 下以每秒千兆位 (Gbps) 的速度测量的吞吐量。 会根据在服务、帐户和文件级别上测量的近乎持续的按请求度量的延迟来进行处理。

成本效益

因为 Data Lake Storage Gen2 是在 Azure Blob 存储基础之上构建的,所以存储容量和事务成本较低。 不同于其他云存储服务,在分析数据之前,无需移动或转换数据。 有关定价的详细信息,请参阅 Azure 存储定价

此外,分层命名空间等功能可显著提高许多分析作业的整体性能。 这一性能方面的提升意味着你需要较少的计算能力来处理相同数量的数据,从而降低端到端分析作业的总拥有成本 (TCO)。

一个服务,多个概念

因为 Data Lake Storage Gen2 是在 Azure Blob 存储基础之上构建的,所以可以使用多个概念来描述相同的共享内容。

以下是不同概念所描述的等效实体。 除非另有说明,否则这些实体是直接同义的:

概念 顶级组织 较低级别的组织 数据容器
Blob - 常规用途对象存储 容器 虚拟目录(仅限 SDK - 不提供原子操作) Blob
Azure Data Lake Storage Gen2 - 分析存储 容器 目录 文件

支持的 Blob 存储功能

你的帐户现在可使用诊断日志记录访问层Blob 存储生命周期管理策略等 Blob 存储功能。 大多数 Blob 存储功能完全受支持,但某些功能仅在预览级别受支持,或者尚不受支持。

若要了解 Data Lake Storage Gen2 如何支持每项 Blob 存储功能,请参阅 Azure 存储帐户中的 Blob 存储功能支持

支持的 Azure 服务集成

Data Lake Storage gen2 支持多个 Azure 服务。 可以使用它们来引入数据、执行分析和创建可视化表示形式。 有关受支持的 Azure 服务的列表,请参阅支持 Azure Data Lake Storage Gen2 的 Azure 服务

支持的开源平台

多个开源平台支持 Data Lake Storage Gen2。 有关完整列表,请参阅支持 Azure Data Lake Storage Gen2 的开源平台

另请参阅