在 HDInsight 上的 Apache Spark 群集中使用建本操作安装适用于 Jupyter 笔记本的外部 Python 包

了解如何使用脚本操作在 HDInsight (Linux) 上配置 Apache Spark 群集,以使用未现成包含在群集中的、由社区贡献的 python 外部包。

Note

还可使用 %%configure magic 配置 Jupyter notebook 以使用外部包。 有关说明,请参阅在 HDInsight 上的 Apache Spark 群集中将外部包与 Jupyter notebook 配合使用

可以在 包索引 中搜索可用包的完整列表。 也可以从其他源获取可用包的列表。 例如,可以安装通过 Anacondaconda-forge 提供的包。

本文将介绍如何使用脚本操作在群集上安装 TensorFlow 包并通过 Jupyter 笔记本使用它。

先决条件

必须满足以下条件:

将外部包与 Jupyter 笔记本配合使用

  1. Azure 门户上的启动板中,单击 Spark 群集的磁贴(如果已将它固定到启动板)。 也可以单击“全部浏览” > “HDInsight 群集”导航到群集。

  2. 在 Spark 群集边栏选项卡中,单击“使用情况”下的“脚本操作”。 运行用于在头节点和工作节点中安装 TensorFlow 的自定义操作。 可以从以下位置引用 bash 脚本:https://hdiconfigactions.blob.core.chinacloudapi.cn/linuxtensorflow/tensorflowinstall.sh 访问有关如何使用自定义脚本操作的文档。

    Note

    群集中有两个 python 安装。 Spark 将使用位于 /usr/bin/anaconda/bin中的 Anaconda python 安装。 通过 /usr/bin/anaconda/bin/pip/usr/bin/anaconda/bin/conda 在自定义操作中引用该安装。

  3. 打开 PySpark Jupyter 笔记本

    创建新的 Jupyter 笔记本

  4. 随即创建新笔记本,并以 Untitled.pynb 名称打开。 单击顶部的笔记本名称,然后输入一个友好名称。

    提供笔记本的名称

  5. 现在将 import tensorflow 并运行 hello world 示例。

    要复制的代码:

     import tensorflow as tf
     hello = tf.constant('Hello, TensorFlow!')
     sess = tf.Session()
     print(sess.run(hello))
    

    结果将如下所示:

    TensorFlow 代码执行

另请参阅

方案

创建和运行应用程序

工具和扩展

管理资源