Azure 机器学习词汇表

Azure 机器学习词汇表是简短的机器学习平台术语字典。 有关通用 Azure 术语,另请参阅:

组件

机器学习组件是一段独立的代码,执行机器学习管道中的一个步骤。 组件是高级机器学习管道的构建基块。 组件可以执行数据处理、模型训练、模型评分等任务。 组件类似于函数。 它有名称和参数,接收输入并返回输出。

计算

计算是运行作业或托管终结点的指定计算资源。 机器学习支持以下类型的计算:

  • 计算群集:一种托管的计算基础结构,让你可以在云中轻松创建 CPU 或 GPU 计算节点的群集。

    注意

    使用无服务器计算将计算生命周期管理转移到 Azure 机器学习,而不是创建计算群集。

  • 计算实例:完全在云中配置和托管的开发环境。 可将该实例用作训练或推理计算来进行开发和测试。 它类似于云中的虚拟机。

  • Kubernetes 群集:用于将经过训练的机器学习模型部署到 Azure Kubernetes 服务 (AKS)。 可以从机器学习工作区创建 AKS 群集,或者附加现有的 AKS 群集。

  • 附加计算:可以将自己的计算资源附加到工作区,并将其用于训练和推理。

数据​

机器学习可用于处理不同类型的数据:

  • URI(本地或云存储中的某个位置):
    • uri_folder
    • uri_file
  • 表(表格数据抽象):
    • mltable
  • 基元:
    • string
    • boolean
    • number

对于大多数方案,你会使用 URI(uri_folderuri_file)来标识存储中的某个位置,可以通过将存储装载或下载到节点,轻松将此位置映射到作业中计算节点的文件系统。

mltable 是用于自动化机器学习 (AutoML) 作业、并行作业和某些高级方案的表格数据的抽象。 如果你刚开始使用机器学习,并且不使用 AutoML,我们强烈建议你从 URI 开始。

数据存储

机器学习数据存储将连接信息安全地存储在 Azure 上的数据存储中,因此无需在脚本中对其进行编码。 可以注册并创建一个数据存储,以便轻松连接到存储帐户,并访问底层存储服务中的数据。 Azure 机器学习 CLI v2 和 SDK v2 支持以下类型的基于云的存储服务:

  • Azure Blob 存储容器
  • Azure 文件存储共享
  • Azure Data Lake 存储
  • Azure Data Lake Storage Gen2

Environment

机器学习环境是执行机器学习任务的环境的封装。 这些环境将指定与训练和评分脚本有关的软件包、环境变量和软件设置。 环境是机器学习工作区中托管的且版本受控的实体。 环境支持跨各种计算的可重现、可审核和可移植机器学习工作流。

环境的类型

机器学习支持两种类型的环境:特选和自定义。

特选环境由机器学习提供,且默认可用于你的工作区。 它们的目的是按原样使用。 它们包含 Python 包和设置的集合,有助于你开始使用各种机器学习框架。 这些预先创建的环境还可以加快部署速度。 若要检索可用环境的完整列表,请参阅使用 CLI 和 SDK 的 Azure 机器学习环境 (v2)

在自定义环境中,你负责设置环境。 请确保安装训练或评分脚本在计算时所需的包和任何其他依赖项。 机器学习使你能够通过以下方式创建自己的环境:

  • Docker 映像。
  • 基础 Docker 映像,并使用 conda YAML 进一步自定义。
  • Docker 生成上下文。

型号

机器学习模型由表示机器学习模型的二进制文件和任何相应的元数据组成。 可以从本地或远程文件或目录创建模型。 支持使用 httpswasbsazureml 作为远程位置。 创建的模型将在工作区中按指定的名称和版本进行跟踪。 机器学习支持 3 种类型的模型存储格式:

  • custom_model
  • mlflow_model
  • triton_model

工作区

工作区是机器学习的顶级资源。 它提供了一个集中的位置,用于处理使用机器学习时创建的所有项目。 工作区保留所有作业的历史记录,包括日志、指标、输出和脚本快照。 工作区存储对数据存储和计算等资源的引用。 它还保存模型、环境、组件和数据资产等所有资产。

后续步骤

什么是 Azure 机器学习?