Azure 机器学习中支持的基于云的存储服务包括:
- Azure Blob 容器
- Azure 文件共享
- Azure Data Lake
- Azure Data Lake Gen2
Azure 机器学习允许你使用存储 URI 直接连接到数据,例如:
https://storageAccount.blob.core.chinacloudapi.cn/container/path/file.csv
(Azure blob 容器)abfss://container@storageAccount.dfs.core.chinacloudapi.cn/base/path/folder1
(Azure Data Lake Gen2)。
存储 URI 使用基于身份的访问,这将提示你输入 Azure Active Directory 令牌以进行数据访问身份验证。 这样,你就可以在存储级别进行数据访问管理,并让凭据保密。
注意
在 Azure 机器学习工作室中使用笔记本时,你的 Azure Active Directory 令牌会自动传递到存储以进行数据访问身份验证。
尽管存储 URI 提供了一种方便的数据访问机制,但在某些情况下,使用 Azure 机器学习数据存储可能是更好的选择:
- 你需要基于凭据的数据访问(例如:服务主体、SAS 令牌、帐户名称/密钥)。 数据存储很有用,因为它们将连接信息安全地保存在 Azure Keyvault 中,因此你不必在脚本中对其进行编码。
- 你希望团队成员轻松发现相关数据存储。 数据存储已注册到 Azure 机器学习工作区,使你的团队成员更容易找到/发现它们。
注册并创建一个数据存储即可轻松连接到存储帐户,并访问底层存储服务中的数据。
基于凭证与基于标识的访问
Azure 机器学习数据存储支持基于凭据和基于标识的访问。 在基于凭据的访问中,身份验证凭据保存在数据存储中,该数据存储用于确保你有权访问存储服务。 如果通过数据存储注册这些凭据,则具有工作区读取者角色的任何用户都可以检索这些凭据。 对于某些组织,这种访问规模可能会成为一个安全问题。 使用基于标识的数据访问时,Azure 机器学习会提示你输入用于数据访问身份验证的 Azure Active Directory 令牌,而不是将凭据保存在数据存储中。 这样,你就可以在存储级别进行数据访问管理,并让凭据保密。