Azure Data Lake Storage Gen2 简介

‎Azure Data Lake Storage Gen2 是一组专用于大数据分析的功能,以 Azure Blob 存储为基础而构建。

专为企业大数据分析而设计

Data Lake Storage Gen2 使 Azure 存储成为在 Azure 上构建企业 Data Lake 的基础。 Data Lake Storage Gen2 从一开始就设计为存储数千万亿字节的信息,同时保持数百千兆位的吞吐量,允许你轻松管理大量数据。

Data Lake Storage Gen2 的一个基本部分是向 Blob 存储添加分层命名空间。 分层命名空间将对象/文件组织到目录层次结构中,以便进行有效的数据访问。 常见的对象存储命名约定在名称中使用斜杠来模拟分层目录结构。 这种结构在 Data Lake Storage Gen2 中得以真正实现。 诸如重命名或删除目录之类的操作在目录上成为单个原子元数据操作,而不是枚举或处理共享目录名称前缀的所有对象。

过去,基于云的分析必须在性能、管理和安全性方面做出妥协。 Data Lake Storage Gen2 通过以下方式解决这些方面中的每个问题:

  • 优化了性能,因为你不需要将复制或转换数据作为分析的先决条件。 分层命名空间极大地提高了目录管理操作的性能,从而提高了整体作业性能。

  • 管理更为容易,因为你可以通过目录和子目录来组织和操作文件。

  • 安全性是可以强制实施的,因为可以在目录或单个文件上定义 POSIX 权限。

  • 由于 Data Lake Storage Gen2 基于低成本的 Azure Blob 存储而构建,因此,可以实现成本效益。 这些新增功能进一步降低了在 Azure 上运行大数据分析的总拥有成本。

Data Lake Storage Gen2 的主要功能

  • Hadoop 兼容访问:使用 Data Lake Storage Gen2,可以像使用 Hadoop 分布式文件系统 (HDFS) 一样管理和访问数据。 新的 ABFS 驱动程序可在所有 Apache Hadoop 环境中使用,以访问 Data Lake Storage Gen2 中存储的数据。

  • POSIX 权限的超集:Data Lake Gen2 的安全模型支持 ACL 和 POSIX 权限,以及特定于 Data Lake Storage Gen2 的一些额外粒度。 可以通过存储资源管理器或 Hive 和 Spark 等框架来配置设置。

  • 经济高效:Data Lake Storage Gen2 提供了低成本的存储容量和事务。

  • 优化的驱动程序:ABFS 驱动程序专门针对大数据分析进行了优化。 相应的 REST API 通过 dfs 终结点 dfs.core.chinacloudapi.cn 进行显示。

可伸缩性

按照设计,无论是通过 Data Lake Storage Gen2 还是 Blob 存储接口进行访问,Azure 存储都可自如缩放。 它可以存储和处理许多百亿亿字节的数据。 这种存储量可用于在每秒高级别的输入/输出操作 (IOPS) 下以每秒千兆位 (Gbps) 的速度测量的吞吐量。 除持久性之外,以几乎恒定的每个请求延迟执行处理,这些延迟是在服务、帐户和文件级别上测量的。

成本效益

基于 Azure Blob 存储生成 Data Lake Storage Gen2 的多个好处之一是存储容量和事务的低成本。 与其他云存储服务不同,在执行分析之前不需要移动或转换存储在 Data Lake Storage Gen2 中的数据。 有关定价的详细信息,请参阅 Azure 存储定价

此外,分层命名空间等功能可显著提高许多分析作业的整体性能。 这一性能方面的提升意味着你需要较少的计算能力来处理相同数量的数据,从而降低端到端分析作业的总拥有成本 (TCO)。

一个服务,多个概念

Data Lake Storage Gen2 是用于大数据分析的附加功能,基于 Azure Blob 存储而构建。 虽然利用 Blob 的现有平台组件来创建和操作数据库进行分析有很多好处,但它确实导致了描述相同共享内容的多个概念。

以下是不同概念所描述的等效实体。 除非另有说明,否则这些实体是直接同义词:

概念 顶级组织 较低级别的组织 数据容器
Blob - 常规用途对象存储 容器 虚拟目录(仅限 SDK - 不提供原子操作) Blob
ADLS Gen2 - 分析存储 文件系统 Directory 文件

支持的开源平台

多个开源平台支持 Data Lake Storage Gen2。 这些平台显示在下表中。

Note

仅支持此表中显示的版本。

平台 支持的版本 更多信息
Hadoop 3.2+ Apache Hadoop 版本存档
Cloudera 6.1+ Cloudera Enterprise 6.x 发行说明
HortonWorks 3.1.x++ 配置云数据访问

后续步骤

以下文章介绍 Data Lake Storage Gen2 的一些主要概念,并详细介绍如何存储、访问、管理数据以及从数据中获取见解: