什么是 Azure Databricks?

Azure Databricks 是一个已针对 Microsoft Azure 云服务平台进行优化的数据分析平台。 Azure Databricks 提供两个用于在 Azure 中国云上开发数据密集型应用程序的环境:Databricks 数据科学与工程,以及 Databricks 机器学习。

“Databricks 数据科学与工程”提供了一个交互工作区,支持数据工程师、数据科学家和机器学习工程师之间的协作。 使用大数据管道时,原始或结构化的数据将通过 Azure 数据工厂以批的形式引入 Azure,或者通过 Apache Kafka、事件中心或 IoT 中心进行准实时的流式传输。 此数据将驻留在 Data Lake(长久存储)、Azure Blob 存储或 Azure Data Lake Storage 中。 在分析工作流中,使用 Azure Databricks 从多个数据源读取数据,并使用 Spark 将数据转换为突破性见解。

Databricks 机器学习是一个集成式端到端机器学习环境,其中整合了用于试验跟踪、模型训练、特征开发和管理以及特征与模型传送的托管服务。

若要选择环境,启动一个 Azure Databricks 工作区并使用边栏中的角色切换器:

Azure Databricks 角色切换器

后续步骤