本文概述了 Azure Databricks 如何对日志中的访问密钥和凭据进行修订。
凭据编辑概述
凭据修订是一项关键安全做法,涉及屏蔽敏感信息(例如密码或 API 密钥),以防止未经授权的访问。 Azure Databricks 在审核日志和 log4j Apache Spark 日志中编辑密钥和凭据,以保护数据免受信息泄露。 Azure Databricks 会自动去除 URI 中的云凭据和其他凭据。 编修基于从机密中检索的值,而不管它在哪个变量或上下文中使用。
对于某些凭据类型,Azure Databricks 会添加一个 hash_prefix
,这是使用名为 MD5 的方法从凭据生成的简短代码。 此代码用于检查凭据是否有效且尚未更改。
云凭据删除
经过编校的云凭据可能有多个编校替代项中的一个。 有些人说 [REDACTED]
,而另一些可能具有更具体的替换,例如 REDACTED_POSSIBLE_CLOUD_SECRET_ACCESS_KEY.
即使这些字符串不是云凭据,Azure Databricks 也可能编辑随机生成的某些长字符串。
URI 中的凭据编校
Azure Databricks 检测到 URI 中的 //username:password@mycompany.com
,并将其替换为 username:password
REDACTED_CREDENTIALS(hash_prefix)
。 Azure Databricks 从 username:password
计算哈希(包括 :
)。
例如,Azure Databricks 将 2017/01/08: Accessing https://admin:admin@mycompany.com
记录为 2017/01/08: Accessing https://REDACTED_CREDENTIALS(d2abaa37)@mycompany.com
。