Azure Data Lake Storage Gen2 简介

Azure Data Lake Storage Gen2 是一组专用于大数据分析的功能,基于 Azure Blob 存储而构建。

Data Lake Storage Gen2 使 Azure 存储成为在 Azure 上构建企业 Data Lake 的基础。 Data Lake Storage Gen2 从一开始就设计为存储数千万亿字节的信息,同时保持数百千兆位的吞吐量,允许你轻松管理大量数据。

什么是“数据湖”?

数据湖是一个集中式存储库,可在其中存储所有结构化和非结构化数据。 使用数据湖,你的组织可以快速、更轻松地在一个位置存储、访问和分析各种数据。 使用数据湖,无需调整数据以适应现有结构。 相反,可以将数据存储为原始格式或原生格式,通常作为文件或二进制大型对象 (blob)。

Azure Data Lake Storage 是一种基于云的企业数据湖解决方案。 它旨在以任何格式存储大量数据,并促进大数据分析工作负载。 你可以使用它将任何类型和引入速度的数据捕获到一个位置,以便使用各种框架轻松访问和分析。

Data Lake Storage Gen2

Azure Data Lake Storage Gen2 是指目前实施的 Azure Data Lake Storage 解决方案。

Data Lake Storage Gen2 不是专用的服务或帐户类型。 相反,它作为一组功能实现,可用于 Azure 存储帐户的 Blob 存储服务。 可以通过启用分层命名空间设置来解锁这些功能。

Azure Data Lake Storage Gen2 包括以下功能。

✓ Hadoop 兼容访问

✓ 分层目录结构

✓ 更低的成本和更强的性能

✓ 粒度更细的安全模型

✓ 极强的可伸缩性

Hadoop 兼容访问

Azure Data Lake Storage Gen2 主要设计用于与 Hadoop 以及所有使用 Apache Hadoop 分布式文件系统 (HDFS) 作为数据访问层的框架协同工作。 Hadoop 发行版包括 Azure Blob File System (ABFS) 驱动程序,它使许多应用程序和框架能够直接访问 Azure Blob 存储数据。 ABFS 驱动程序已针对大数据分析专门进行了优化。 相应的 REST API 通过终结点 dfs.core.chinacloudapi.cn 进行显示。

使用 HDFS 作为数据访问层的数据分析框架可以通过 ABFS 直接访问 Azure Data Lake Storage Gen2 数据。 Apache Spark 分析引擎和 Presto SQL 查询引擎就是此类框架的示例。

有关支持的服务和平台的详细信息,请参阅 支持 Azure Data Lake Storage Gen2 的 Azure 服务支持 Azure Data Lake Storage Gen2 的开源平台

分层目录结构

分层命名空间是一项关键功能,它使 Azure Data Lake Storage Gen2 能够以对象存储规模和价格提供高性能数据访问。 可以使用此功能将存储帐户中的所有对象和文件组织到目录和嵌套子目录的层次结构中。 换句话说,Azure Data Lake Storage Gen2 数据的组织方式与在你的计算机上组织文件的方式大致相同。

重命名或删除目录等操作会成为目录上的单个原子元数据操作。 无需枚举和处理共享目录名称前缀的所有对象。

更低的成本和更强的性能

Azure Data Lake Storage Gen2 按 Azure Blob 存储级别定价。 它基于 Azure Blob 存储功能(例如自动生命周期策略管理和对象级分层)来管理大数据存储成本。

优化了性能,因为你不需要将复制或转换数据作为分析的先决条件。 Azure Data Lake Storage 的分层命名空间功能允许高效访问和浏览。 此架构意味着数据处理需要更少的计算资源,从而降低了访问数据的速度和成本。

粒度更细的安全模型

Azure Data Lake Storage Gen2 访问控制模型支持 Azure 基于角色的访问控制 (Azure RBAC) 和用于 UNIX 的可移植操作系统接口 (POSIX) 访问控制列表 (ACL)。 另外还有一些特定于 Azure Data Lake Storage Gen2 的额外安全设置。 可以在目录级别或文件级别设置权限。 所有存储的数据都使用 Microsoft 托管的或客户托管的机密密钥进行静态加密。

极强的可伸缩性

Azure Data Lake Storage Gen2 提供海量存储并接受多种数据类型进行分析。 它对帐户大小、文件大小或 Data Lake 中可存储的数据量均无任何限制。 单个文件的大小可以从几千字节 (KB) 到几拍字节 (PB) 不等。 会根据在服务、帐户和文件级别上测量的近乎持续的按请求度量的延迟来进行处理。

此设计意味着 Azure Data Lake Storage Gen2 可以轻松快速地纵向扩展以满足严格的工作负载。 它也可以在需求下降时轻松地纵向缩减。

基于 Azure Blob 存储构建

注入的数据作为 Blob 保留在存储帐户中。 管理 Blob 的服务是 Azure Blob 存储服务。 Azure Data Lake Storage Gen2 介绍了此服务的功能或“增强功能”,以满足大数据分析工作负载的需求。

因为这些功能是基于你的帐户现在可使用诊断日志记录、访问层和 Blob 存储生命周期管理策略等 Blob 存储功能构建的。 完全支持大多数 Blob 存储功能,但某些功能可能仅在预览级别受支持,其中少数功能尚不受支持。 有关支持语句的完整列表,请参阅 Azure 存储帐户中的 Blob 存储功能支持。 随着支持继续扩展,每个列出的项目会随时间而变化。

文档和术语

Azure Blob 存储目录包含两部分内容。 内容中的 Azure Data Lake Storage Gen2 部分提供使用 Azure Data Lake Storage Gen2 的最佳做法和指导。 内容中的 Blob 存储部分介绍了并不特定于 Azure Data Lake Storage Gen2 的帐户功能指导。

在参阅这两个部分时,你会注意到术语有一些细微的差别。 例如,Blob 存储文档中表述的内容将使用术语 “Blob”而不是“文件”。 从技术上说,你引入到存储帐户的文件将成为帐户中的 Blob。 因此,该术语是正确的。 但是,如果你习惯于使用术语“文件”,则使用术语“blob”可能会导致混淆。 你还将看到文中使用术语“容器”来指代“文件系统”。 请将这些术语视为同义词。

另请参阅