Azure HDInsight 发行说明

Note

在 Azure 中国区,HDInsight Linux 仅支持 3.5 或更高版本。 在 Azure 中国区无法创建 HDInsight Linux 3.2、3.3 和 3.4。 但是,可以通过 HDInsight 模拟器使用这些版本。

本文提供有关最新 Azure HDInsight 版本更新的信息。 有关较早版本的信息,请参阅 HDInsight 发行说明存档

Important

Linux 是 HDInsight 3.4 或更高版本上使用的唯一操作系统。 有关详细信息,请参阅 HDInsight 版本控制文章

摘要

Azure HDInsight 是 Azure 中最受企业客户青睐的开源 Hadoop 和 Spark 分析服务之一。 客户在迁移到云后,能够实现前所未有的成本节省。

新增功能

新的更新和功能划分为以下类别:

  1. 更新 Hadoop 和其他开源项目 - 除了超过 20 个开源项目的 1000 多个 bug 修复,此更新还包含 Spark (2.3)Kafka (1.0) 的新版本。

    a. Spark 2.3 中的新增功能

    b. Kafka 1.0 中的新增功能

组件版本

下面列出了所有 HDInsight 3.6 组件的正式 Apache 版本。 此处列出的所有组件是最新稳定版本的正式 Apache 发行版。

  • Apache Hadoop 2.7.3

  • Apache HBase 1.1.2

  • Apache Hive 1.2.1

  • Apache Hive 2.1.0

  • Apache Kafka 1.0.0

  • Apache Mahout 0.9.0+

  • Apache Oozie 4.2.0

  • Apache Phoenix 4.7.0

  • Apache Pig 0.16.0

  • Apache Ranger 0.7.0

  • Apache Slider 0.92.0

  • Apache Spark 2.2.0/2.3.0

  • Apache Sqoop 1.4.6

  • Apache Storm 1.1.0

  • Apache TEZ 0.7.0

  • Apache Zeppelin 0.7.3

  • Apache ZooKeeper 3.4.6

除了上面所列的版本以外,某些 Apache 组件的较高版本有时也捆绑在 HDP 分发版中。 在这种情况下,这些较高版本会列在“技术预览”表中,并且在生产环境中不应替换为上述列表中的 Apache 组件版本。

Apache 修补程序信息

Hadoop

此版本提供 Hadoop Common 2.7.3 和以下 Apache 修补程序:

  • HADOOP-13190:在 KMS HA 文档中提到 LoadBalancingKMSClientProvider。

  • HADOOP-13227:AsyncCallHandler 应使用事件驱动的体系结构来处理异步调用。

  • HADOOP-14104:客户端应始终请求 kms 提供程序路径的名称节点。

  • HADOOP-14799:将 nimbus-jose-jwt 更新为 4.41.1。

  • HADOOP-14814:将 FsServerDefaults 上不兼容的 API 更改修复为 HADOOP-14104。

  • HADOOP-14903:将 json-smart 显式添加到 pom.xml。

  • HADOOP-15042:当 numberOfPagesRemaining 为 0 时,Azure PageBlobInputStream.skip() 可以返回负值。

  • HADOOP-15255:LdapGroupsMapping 中的组名称支持大小写转换。

  • HADOOP-15265:从 hadoop-auth pom.xml 中显式排除 json-smart。

  • HDFS-7922:ShortCircuitCache#close 未发布 ScheduledThreadPoolExecutors。

  • HDFS-8496:在持有 FSDatasetImpl 锁的情况下调用 stopWriter() 可能会阻止其他线程 (cmccabe)。

  • HDFS-10267:FsDatasetImpl#recoverAppend 和 FsDatasetImpl#recoverClose 上的附加“synchronized”。

  • HDFS-10489:弃用 HDFS 加密区域的 dfs.encryption.key.provider.uri。

  • HDFS-11384:添加让均衡器分散 getBlocks 调用的选项,以避免 NameNode 的 rpc.CallQueueLength 峰值。

  • HDFS-11689:DFSClient%isHDFSEncryptionEnabled 引发的新异常破坏 hacky hive 代码。

  • HDFS-11711:发生“打开的文件过多”异常时 DN 不应删除块。

  • HDFS-12347:TestBalancerRPCDelay#testBalancerRPCDelay 非常频繁地失败。

  • HDFS-12781:数据节点关闭后,在“名称节点”UI 中,“数据节点”选项卡引发警告消息。

  • HDFS-13054:处理 DFSClient 中的 PathIsNotEmptyDirectoryException 删除调用。

  • HDFS-13120:concat 后,快照差异可能会损坏。

  • YARN-3742:如果 ZKClient 创建超时,YARN RM 会关闭。

  • YARN-6061:为 RM 中的关键线程添加 UncaughtExceptionHandler。

  • YARN-7558:如果启用 UI 身份验证,获取运行中容器的日志的 yarn logs 命令会失败。

  • YARN-7697:即使日志聚合已完成,提取已完成应用程序的日志也会失败。

HDP 2.6.4 提供 Hadoop Common 2.7.3 和以下 Apache 修补程序:

  • HADOOP-13700:从 TrashPolicy#initialize 和 #getInstance 签名中删除未引发的 IOException。

  • HADOOP-13709:能够清理进程退出时由 Shell 生成的子进程。

  • HADOOP-14059:s3a rename(self, subdir) 错误消息中存在拼写错误。

  • HADOOP-14542:添加接受 slf4j 记录器 API 的 IOUtils.cleanupWithLogger。

  • HDFS-9887:WebHdfs 套接字超时应可配置。

  • HDFS-9914:修复可配置的 WebhDFS 连接/读取超时。

  • MAPREDUCE-6698:增大 TestUnnecessaryBlockingOnHist oryFileInfo.testTwoThreadsQueryingDifferentJobOfSameUser 中的超时。

  • YARN-4550:TestContainerLanch 中的某些测试在非英语区域设置环境中失败。

  • YARN-4717:由于清理后发生 IllegalArgumentException,TestResourceLocalizationService.testPublicResourceInitializesLocalDir 间歇性失败。

  • YARN-5042:将 /sys/fs/cgroup 作为只读装载项装入 Docker 容器。

  • YARN-5318:修复 TestRMAdminService#te stRefreshNodesResourceWithFileSystemBasedConfigurationProvider 的间歇性测试失败。

  • YARN-5641:容器完成后,本地化程序留下 tarball。

  • YARN-6004:重构 TestResourceLocalizationService#testDownloadingResourcesOnContainer,使其小于 150 行。

  • YARN-6078:容器停滞在“正在本地化”状态。

  • YARN-6805:由于 null PrivilegedOperationException 退出代码,LinuxContainerExecutor 中出现 NPE。

HBase

此版本提供 HBase 1.1.2 和以下 Apache 修补程序。

  • HBASE-13376:Stochastic 负载均衡器改进。

  • HBASE-13716:停止使用 Hadoop 的 FSConstants。

  • HBASE-13848:通过凭据提供程序 API 访问 InfoServer SSL 密码。

  • HBASE-13947:在 AssignmentManager 中使用 MasterServices 而不是 Server。

  • HBASE-14135:HBase 备份/还原阶段 3:合并备份映像。

  • HBASE-14473:并行计算区域位置。

  • HBASE-14517:在主状态页中显示 regionserver 的版本。

  • HBASE-14606:apache 上的主干版本中的 TestSecureLoadIncrementalHFiles 测试超时。

  • HBASE-15210:撤消每毫秒记录数十个行的激进负载均衡器日志记录。

  • HBASE-15515:改进均衡器中的 LocalityBasedCandidateGenerator。

  • HBASE-15615:RegionServerCallable 需要重试时休眠时间错误。

  • HBASE-16135:已删除的对等方的 rs 下的 PeerClusterZnode 可能永远无法删除。

  • HBASE-16570:启动时并行计算区域位置。

  • HBASE-16810:当 regionservers 在 /hbase/draining znode 中且已卸载时,HBase 均衡器引发 ArrayIndexOutOfBoundsException。

  • HBASE-16852:TestDefaultCompactSelection 在 branch-1.3 上失败。

  • HBASE-17387:在 multi() 的 RegionActionResult 中减少异常报告的开销。

  • HBASE-17850:备份系统修复实用工具。

  • HBASE-17931:将系统表分配到具有最高版本的服务器。

  • HBASE-18083:使大/小文件清理线程数在 HFileCleaner 中可配置。

  • HBASE-18084:改进 CleanerChore,以便从消耗更多磁盘空间的目录中清理数据。

  • HBASE-18164:位置成本函数和候选生成器的速度快得多。

  • HBASE-18212:在独立模式下出现本地文件系统 HBase 日志警告消息:无法在类 org.apache.hadoop.fs.FSDataInputStream 中调用“unbuffer”方法。

  • HBASE-18808:配置签入 BackupLogCleaner#getDeletableFiles() 的效率低下。

  • HBASE-19052:FixedFileTrailer 应识别 branch-1.x 中的 CellComparatorImpl 类。

  • HBASE-19065:HRegion#bulkLoadHFiles() 应等待并发 Region#flush() 完成。

  • HBASE-19285:添加每个表的延迟直方图。

  • HBASE-19393:使用 SSL 访问 HBase UI 时的 HTTP 413 FULL 标头。

  • HBASE-19395:[branch-1] TestEndToEndSplitTransaction.testMasterOpsWhileSplitting 失败并出现 NPE。

  • HBASE-19421:branch-1 不会针对 Hadoop 3.0.0 进行编译。

  • HBASE-19934:启用读取副本并在区域拆分后创建联机快照时,发生 HBaseSnapshotException。

  • HBASE-20008:拆分区域后还原快照时[向后移植] NullPointerException。

Hive

除以下修补程序以外,此版本还提供 Hive 1.2.1 和 Hive 2.1.0:

Hive 1.2.1 Apache 修补程序:

  • HIVE-10697:ObjectInspectorConvertors#UnionConvertor 执行错误的转换。

  • HIVE-11266:基于外部表的表统计信息 count(*) 错误结果。

  • HIVE-12245:支持基于 HBase 的表的列注释。

  • HIVE-12315:修复矢量化双精度除零。

  • HIVE-12360:使用谓词下推在未压缩的 ORC 中进行错误查找。

  • HIVE-12378:HBaseSerDe.serialize 二进制字段中出现异常。

  • HIVE-12785:包含联合类型和结构 UDF 的视图破坏。

  • HIVE-14013:描述表未正确显示 unicode。

  • HIVE-14205:Hive 不支持 AVRO 文件格式的联合类型。

  • HIVE-14421:FS.deleteOnExit 包含对 _tmp_space.db 文件的引用。

  • HIVE-15563:忽略 SQLOperation.runQuery 中的非法操作状态转换异常,以公开实际异常。

  • HIVE-15680:在 MR 模式下,当 hive.optimize.index.filter=true 且在查询中两次引用同一个 ORC 表时,出现错误的结果。

  • HIVE-15883:在 Hive 中的 HBase 映射表内插入十进制数失败。

  • HIVE-16232:QuotedIdentifier 中的列支持统计信息计算。

  • HIVE-16828:启用 CBO 后,基于分区视图进行查询会引发 IndexOutOfBoundException。

  • HIVE-17013:使用基于视图选择的子查询删除请求。

  • HIVE-17063:在首先删除分区的情况下,将覆盖分区插入外部表失败。

  • HIVE-17259:Hive JDBC 无法识别 UNIONTYPE 列。

  • HIVE-17419:ANALYZE TABLE...COMPUTE STATISTICS FOR COLUMNS 命令显示掩码表的计算统计信息。

  • HIVE-17530:转换 uniontype 时发生 ClassCastException。

  • HIVE-17621:执行 HCatInputFormat 拆分计算期间忽略 Hive-site 设置。

  • HIVE-17636:为 Blob 存储添加 multiple_agg.q 测试。

  • HIVE-17729:添加 Database 和 Explain 相关的 Blob 存储测试。

  • HIVE-17731:将面向外部用户的向后兼容选项添加到 HIVE-11985。

  • HIVE-17803:使用 Pig 多重查询时,将 2 个 HCatStorer 写入同一个表会破坏彼此的输出。

  • HIVE-17829:ArrayIndexOutOfBoundsException - Hive2 中采用 Avro 架构的基于 HBASE 的表。

  • HIVE-17845:如果目标表列不是小写,插入将会失败。

  • HIVE-17900:分析压缩器触发的列中的统计信息生成包含多个分区列的、格式不当的 SQL。

  • HIVE-18026:Hive webhcat 主体配置优化。

  • HIVE-18031:支持“更改数据库”操作的复制。

  • HIVE-18090:通过 hadoop 凭据连接元存储时,acid 检测信号失败。

  • HIVE-18189:将 hive.groupby.orderby.position.alias 设置为 true 时,Hive 查询返回错误结果。

  • HIVE-18258:矢量化:包含重复列的化简端 GROUP BY MERGEPARTIAL 已破坏。

  • HIVE-18293:Hive 无法压缩运行 HiveMetaStore 的标识不拥有的某个文件夹中的表。

  • HIVE-18327:删除 MiniHiveKdc 的不必要的 HiveConf 依赖项。

  • HIVE-18341:添加复制负载支持,以便能够使用相同的加密密钥添加 TDE 的“原始”命名空间。

  • HIVE-18352:引入执行 REPL DUMP 时的 METADATAONLY 选项,以便与其他工具集成。

  • HIVE-18353:CompactorMR 应调用 jobclient.close() 来触发清理(通过 Thejas Nair 的 Prabhu Joseph)。

  • HIVE-18390:查询 ColumnPruner 中的分区视图时发生 IndexOutOfBoundsException。

  • HIVE-18429:压缩应处理不生成任何输出的情况。

  • HIVE-18447:JDBC:提供某种方式让 JDBC 用户通过连接字符串传递 Cookie 信息。

  • HIVE-18460:压缩器不会将表属性传递给 Orc 写入器。

  • HIVE-18467:支持整个仓库转储/加载 + 创建/删除数据库事件(Anishek Agarwal,由 Sankar Hariappan 审阅)。

  • HIVE-18551:矢量化:VectorMapOperator 尝试为 Hybrid Grace 写入过许多的矢量列。

  • HIVE-18587:插入 DML 事件可能尝试针对目录计算校验和。

  • HIVE-18613:扩展 JsonSerDe 以支持二进制类型。

  • HIVE-18626:复制负载“with”子句不会将配置传递给任务。

  • HIVE-18660:PCR 无法区分分区和虚拟列。

  • HIVE-18754:REPL STATUS 应支持“with”子句。

  • HIVE-18754:REPL STATUS 应支持“with”子句。

  • HIVE-18788:清理 JDBC PreparedStatement 中的输入。

  • HIVE-18794:复制负载“with”子句不会将配置传递给非分区表的任务。

  • HIVE-18808:统计信息更新失败时使压缩更加可靠。

  • HIVE-18817:读取 ACID 表期间发生 ArrayIndexOutOfBounds 异常。

  • HIVE-18833:“作为 orcfile 插入目录时”自动合并失败。

  • HIVE-18879:如果 xercesImpl.jar 在类路径中,需要能够禁止在 UDFXPathUtil 中使用嵌入式元素。

  • HIVE-18907:创建实用工具来解决 HIVE-18817 中的 acid 键索引问题。

Hive 1.2.0 Apache 修补程序

  • HIVE-14013:描述表未正确显示 unicode。

  • HIVE-14205:Hive 不支持 AVRO 文件格式的联合类型。

  • HIVE-15563:忽略 SQLOperation.runQuery 中的非法操作状态转换异常,以公开实际异常。

  • HIVE-15680:在 MR 模式下,当 hive.optimize.index.filter=true 且在查询中两次引用同一个 ORC 表时,出现错误的结果。

  • HIVE-15883:在 Hive 中的 HBase 映射表内插入十进制数失败。

  • HIVE-16757:删除对已弃用 AbstractRelNode.getRows 的调用。

  • HIVE-16828:启用 CBO 后,基于分区视图进行查询会引发 IndexOutOfBoundException。

  • HIVE-17063:在首先删除分区的情况下,将覆盖分区插入外部表失败。

  • HIVE-17259:Hive JDBC 无法识别 UNIONTYPE 列。

  • HIVE-17530:转换 uniontype 时发生 ClassCastException。

  • HIVE-17600:使用户可设置 OrcFile 的 enforceBufferSize。

  • HIVE-17601:改进 LlapServiceDriver 中的错误处理。

  • HIVE-17613:删除较短的相同线程分配的对象池。

  • HIVE-17617:空结果集汇总应包含空组集的分组。

  • HIVE-17621:执行 HCatInputFormat 拆分计算期间忽略 Hive-site 设置。

  • HIVE-17629:CachedStore:提供允许列表/方块列表配置,以允许对表/分区进行选择性的缓存,并允许在预热时读取。

  • HIVE-17636:为 Blob 存储添加 multiple_agg.q 测试。

  • HIVE-17702:在 ORC 中的十进制读取器内进行错误的 isRepeating 处理。

  • HIVE-17729:添加 Database 和 Explain 相关的 Blob 存储测试。

  • HIVE-17731:将面向外部用户的向后兼容选项添加到 HIVE-11985。

  • HIVE-17803:使用 Pig 多重查询时,将 2 个 HCatStorer 写入同一个表会破坏彼此的输出。

  • HIVE-17845:如果目标表列不是小写,插入将会失败。

  • HIVE-17900:分析压缩器触发的列中的统计信息生成包含多个分区列的、格式不当的 SQL。

  • HIVE-18006:优化 HLLDenseRegister 的内存占用量。

  • HIVE-18026:Hive webhcat 主体配置优化。

  • HIVE-18031:支持“更改数据库”操作的复制。

  • HIVE-18090:通过 hadoop 凭据连接元存储时,acid 检测信号失败。

  • HIVE-18189:禁用 cbo 时无法按位置排序。

  • HIVE-18258:矢量化:包含重复列的化简端 GROUP BY MERGEPARTIAL 已破坏。

  • HIVE-18269:LLAP:使用慢速处理管道进行快速 llap io 可能导致 OOM。

  • HIVE-18293:Hive 无法压缩运行 HiveMetaStore 的标识不拥有的某个文件夹中的表。

  • HIVE-18318:即使在未阻塞时,LLAP 记录读取器也应检查中断。

  • HIVE-18326:LLAP Tez 计划程序 - 仅当任务之间存在依赖关系时,才预先清空任务。

  • HIVE-18327:删除 MiniHiveKdc 的不必要的 HiveConf 依赖项。

  • HIVE-18331:添加 TGT 过期时重新登录和一些日志记录/lambda。

  • HIVE-18341:添加复制负载支持,以便能够使用相同的加密密钥添加 TDE 的“原始”命名空间。

  • HIVE-18352:引入执行 REPL DUMP 时的 METADATAONLY 选项,以便与其他工具集成。

  • HIVE-18353:CompactorMR 应调用 jobclient.close() 来触发清理。

  • HIVE-18384:log4j2.x 库中发生 ConcurrentModificationException。

  • HIVE-18390:查询 ColumnPruner 中的分区视图时发生 IndexOutOfBoundsException。

  • HIVE-18447:JDBC:提供某种方式让 JDBC 用户通过连接字符串传递 Cookie 信息。

  • HIVE-18460:压缩器不会将表属性传递给 Orc 写入器。

  • HIVE-18462:(使用映射联接的查询的格式化解释包含 columnExprMap,其中包含格式不当的列名称)。

  • HIVE-18467:支持整个仓库转储/加载 + 创建/删除数据库事件。

  • HIVE-18488:LLAP ORC 读取器缺少一些 null 检查。

  • HIVE-18490:使用 EXISTS 和 NOT EXISTS 且包含 non-equi 谓词的查询可能生成错误结果。

  • HIVE-18506:LlapBaseInputFormat - 负数组索引。

  • HIVE-18517:矢量化:修复 VectorMapOperator,以接受 VRB 并正确检查矢量化标志来支持 LLAP 缓存。

  • HIVE-18523:在没有输入的情况下修复摘要行。

  • HIVE-18528:聚合 ObjectStore 中的统计信息时收到错误的结果。

  • HIVE-18530:复制应暂时跳过 MM 表。

  • HIVE-18548:修复 log4j 导入。

  • HIVE-18551:矢量化:VectorMapOperator 尝试为 Hybrid Grace 写入过许多的矢量列。

  • HIVE-18577:SemanticAnalyzer.validate 包含一些毫无意义的元存储调用。

  • HIVE-18587:插入 DML 事件可能尝试针对目录计算校验和。

  • HIVE-18597:LLAP:始终打包 org.apache.log4j 的 log4j2 API jar。

  • HIVE-18613:扩展 JsonSerDe 以支持 BINARY 类型。

  • HIVE-18626:复制负载“with”子句不会将配置传递给任务。

  • HIVE-18643:不检查 ACID 操作的已存档分区。

  • HIVE-18660:PCR 无法区分分区和虚拟列。

  • HIVE-18754:REPL STATUS 应支持“with”子句。

  • HIVE-18788:清理 JDBC PreparedStatement 中的输入。

  • HIVE-18794:复制负载“with”子句不会将配置传递给非分区表的任务。

  • HIVE-18808:统计信息更新失败时使压缩更加可靠。

  • HIVE-18815:删除 HPL/SQL 中的未使用功能。

  • HIVE-18817:读取 ACID 表期间发生 ArrayIndexOutOfBounds 异常。

  • HIVE-18833:“作为 orcfile 插入目录时”自动合并失败。

  • HIVE-18879:如果 xercesImpl.jar 在类路径中,需要能够禁止在 UDFXPathUtil 中使用嵌入式元素。

  • HIVE-18944:DPP 期间错误地设置分组集位置。

Kafka

此版本提供 Kafka 1.0.0 和以下 Apache 修补程序。

  • KAFKA-4827:Kafka 连接:连接器名称中的特殊字符导致错误。

  • KAFKA-6118:kafka.api.SaslScramSslEndToEndAuthorizationTest.testTwoConsumersWithDifferentSaslCredentials 中发生暂时性失败。

  • KAFKA-6156:JmxReporter 无法处理 Windows 样式的目录路径。

  • KAFKA-6164:如果在加载日志时遇到错误,ClientQuotaManager 线程会阻止关闭。

  • KAFKA-6167:streams 目录中的时间戳包含冒号,这是非法字符。

  • KAFKA-6179:RecordQueue.clear() 不会清除 MinTimestampTracker 的维护列表。

  • KAFKA-6185:执行向下转换时,选择器内存泄漏并很有可能出现 OOM。

  • KAFKA-6190:使用事务消息时,GlobalKTable 永远不会完成还原。

  • KAFKA-6210:如果将 1.0.0 用于 inter.broker.protocol.version 或 log.message.format.version,则会发生 IllegalArgumentException。

  • KAFKA-6214:结合内存中状态存储使用备用副本会导致流崩溃。

  • KAFKA-6215:KafkaStreamsTest 在主干中失败。

  • KAFKA-6238:应用滚动升级到 1.0.0 时,协议版本出现问题。

  • KAFKA-6260:AbstractCoordinator 不会明显处理 NULL 异常。

  • KAFKA-6261:如果 ack=0,则请求日志记录会引发异常。

  • KAFKA-6274:改善自动生成的 KTable 源状态存储名称。

Mahout

HDP 2.3.x 和 2.4.x 未随附 Mahout 的特定 Apache 版本,而是同步到 Apache Mahout 主干中的特定修订版本点。 此修订版本点在 0.9.0 版本之后、0.10.0 版本之前。 与 0.9.0 版本相比,此版本提供大量的 bug 修复和功能增强,并且在完成转换到 0.10.0 中基于 Spark 的 Mahout 之前,提供 Mahout 功能的稳定版本。

为 HDP 2.3.x 和 2.4.x 中的 Mahout 选择的修订版本点在截至 2014 年 12 月 19 日,来自 GitHub 中 Apache Mahout 的“mahout-0.10.x”分支的 0f037cb03e77c096。

在 HDP 2.5.x 和 2.6.x 中,我们从 Mahout 中删除了“commons-httpclient”库(因为我们认为它是具有潜在安全问题的已过时库),并已将 Mahout 中的 Hadoop 客户端升级到了版本 2.7.3(HDP-2.5 中使用的相同版本)。 因此:

  • 以前编译的 Mahout 作业需要在 HDP-2.5 或 2.6 环境中重新编译。

  • 还有一种较小的可能性:某些 Mahout 作业可能会遇到与“org.apache.commons.httpclient”、“net.java.dev.jets3t”或类名前缀相关的“ClassNotFoundException”或“无法加载类”错误。 如果环境中可以接受已过时库中安全问题带来的风险,在发生这些错误时,可以考虑是否在作业的类路径中手动安装所需的 jar。

  • 还存在一种更小的可能性:由于二进制兼容问题,在 Mahout 对 hadoop-common 库的 hbase-client 代码调用中,某些 Mahout 作业可能遇到崩溃。 遗憾的是,没有任何方法可以解决此问题,而只能还原到 Mahout 的 HDP-2.4.2 版本,这可能会造成安全问题。 同样,这种情况极少见,在任何给定的 Mahout 作业套件中都不太可能会发生。

Oozie

此版本提供 Oozie 4.2.0 和以下 Apache 修补程序。

  • OOZIE-2571:添加 spark.scala.binary.version Maven 属性,以便可以使用 Scala 2.11。

  • OOZIE-2606:设置 spark.yarn.jars 以修复包含 Oozie 的 Spark 2.0。

  • OOZIE-2658:--driver-class-path 可以覆盖 SparkMain 中的类路径。

  • OOZIE-2787:Oozie 分配应用程序 jar 两次,导致 spark 作业失败。

  • OOZIE-2792:当 Hive 位于 Spark 中时,Hive2 操作不会正确分析日志文件中的 Spark 应用程序 ID。

  • OOZIE-2799:为 hive 上的 spark sql 设置日志位置。

  • OOZIE-2802:由于重复的 sharelibs,Spark 操作在 Spark 2.1.0 上失败。

  • OOZIE-2923:改善 Spark 选项分析。

  • OOZIE-3109:SCA:跨站点脚本:已反映。

  • OOZIE-3139:Oozie 不正确地验证工作流。

  • OOZIE-3167:升级 Oozie 4.3 分支上的 tomcat 版本。

Phoenix

此版本提供 Phoenix 4.7.0 和以下 Apache 修补程序:

  • PHOENIX-1751:在 preScannerNext 而不是 postScannerOpen 中执行聚合、排序,等等。

  • PHOENIX-2714:在 BaseResultIterators 中正确估计字节并公开为接口。

  • PHOENIX-2724:无统计信息相比,具有大量 guideposts 的查询速度更慢。

  • PHOENIX-2855:不会对 HBase 1.2 序列化的递增 TimeRange 的解决方法。

  • PHOENIX-3023:按默认方式并行执行限制查询时性能降低。

  • PHOENIX-3040:不要使用 guideposts 串行执行查询。

  • PHOENIX-3112:无法正确处理部分行扫描。

  • PHOENIX-3240:Pig 加载程序中的 ClassCastException。

  • PHOENIX-3452:NULLS FIRST/NULL LAST 不应影响 GROUP BY 是否为顺序保留。

  • PHOENIX-3469:NULLS LAST/NULLS FIRST 的 DESC 主键的排序顺序错误。

  • PHOENIX-3789:在 postBatchMutateIndispensably 中执行跨区域索引维护调用。

  • PHOENIX-3865:未针对第一个列系列筛选时,IS NULL 不会返回正确的结果。

  • PHOENIX-4290:使用包含不可变索引的表对 DELETE 执行全表扫描。

  • PHOENIX-4373:执行更新插入时,本地索引变量长度键可能包含尾随的 null 值。

  • PHOENIX-4466:java.lang.RuntimeException:响应代码 500 - 执行 spark 作业以连接到 phoenix 查询服务器并加载数据。

  • PHOENIX-4489:Phoenix MR 作业中的 HBase 连接泄漏。

  • PHOENIX-4525:GroupBy 执行中的整数溢出。

  • PHOENIX-4560:如果 pk 列中包含 WHERE, ORDER BY 和 GROUP BY 不起作用。

  • PHOENIX-4586:UPSERT SELECT 不会考虑子查询的比较运算符。

  • PHOENIX-4588:如果表达式的子级包含 Determinism.PER_INVOCATION,则也会克隆表达式。

Pig

此版本提供 Pig 0.16.0 和以下 Apache 修补程序。

  • PIG-5159:修复 Pig 不保存 grunt 历史记录的问题。

  • PIG-5175:将 jruby 升级到 1.7.26。

Ranger

此版本提供 Ranger 0.7.0 和以下 Apache 修补程序:

  • RANGER-1805:遵循 js 中的最佳做法改善代码。

  • RANGER-1960:考虑删除快照的表名称。

  • RANGER-1982:改善 Ranger Admin 和 Ranger KMS 分析指标的错误。

  • RANGER-1984:Hbase 审核日志记录无法显示与访问过的列相关联的所有标记。

  • RANGER-1988:修复不安全的随机性。

  • RANGER-1990:在 Ranger Admin 中添加单向 SSL MySQL 支持。

  • RANGER-2006:修复静态代码分析在 ldap 同步源的 ranger usersync 中检测到的问题。

  • RANGER-2008:策略评估对于多行策略条件失败。

滑块

此版本提供了 Slider 0.92.0,但未提供其他 Apache 修补程序。

Spark

此版本提供 Spark 2.3.0 和以下 Apache 修补程序:

  • SPARK-13587:支持 pyspark 中的 virtualenv。

  • SPARK-19964:避免从 SparkSubmitSuite 中的远程存储库读取。

  • SPARK-22882:结构化流的机器学习测试:ml.classification。

  • SPARK-22915:spark.ml.feature 的从 N 到 Z 的流测试。

  • SPARK-23020:在进程内启动程序测试中修复另一种争用情况。

  • SPARK-23040:返回随机读取器的可中断迭代器。

  • SPARK-23173:从 JSON 加载数据时避免创建损坏的 parquet 文件。

  • SPARK-23264:修复 literals.sql.out 中的 scala.MatchError。

  • SPARK-23288:修正 parquet 接收器的输出指标。

  • SPARK-23329:修正三角函数的文档。

  • SPARK-23406:为 branch-2.3 启用流到流的自联接。

  • SPARK-23434:Spark 不应针对 HDFS 文件路径的`元数据目录`发出警告。

  • SPARK-23436:仅当分区可以强制转换为日期时,才推断分区。

  • SPARK-23457:首先在 ParquetFileFormat 中注册任务完成侦听器。

  • SPARK-23462:改善 `StructType` 中的缺少字段错误消息。

  • SPARK-23490:在 CreateTable 中检查包含现有表的 storage.locationUri。

  • SPARK-23524:不应检查大型本地随机块是否已损坏。

  • SPARK-23525:支持外部 hive 表的 ALTER TABLE CHANGE COLUMN COMMENT。

  • SPARK-23553:测试不应假设 `spark.sql.sources.default` 的默认值。

  • SPARK-23569:允许 pandas_udf 使用 python3 样式的类型批注函数。

  • SPARK-23570:在 HiveExternalCatalogVersionsSuite 中添加 Spark 2.3.0。

  • SPARK-23598:使 BufferedRowIterator 中的方法成为公共方法,以避免大型查询出现运行时错误。

  • SPARK-23599:从伪随机数添加 UUID 生成器。

  • SPARK-23599:在 Uuid 表达式中使用 RandomUUIDGenerator。

  • SPARK-23601:从版本中删除 .md5 文件。

  • SPARK-23608:在 attachSparkUI 和 detachSparkUI 函数之间添加 SHS 同步,以避免 Jetty 处理程序的并发修改问题。

  • SPARK-23614:修复使用缓存时错误地重复使用交换的问题。

  • SPARK-23623:避免在 CachedKafkaConsumer (branch-2.3) 中并发使用缓存的使用者。

  • SPARK-23624:在 Datasource V2 中修订方法 pushFilters 的文档。

  • SPARK-23628:calculateParamLength 不应返回 1 + 表达式数目。

  • SPARK-23630:允许用户的 hadoop 配置自定义项生效。

  • SPARK-23635:Spark 执行器环境变量由同名的 AM 环境变量覆盖。

  • SPARK-23637:如果多次终止同一个执行器,Yarn 可能会分配更多的资源。

  • SPARK-23639:在初始化 SparkSQL CLI 中的元存储客户端之前获取令牌。

  • SPARK-23642:修复 AccumulatorV2 子类 isZero scaladoc。

  • SPARK-23644:对 SHS 中的 REST 调用使用绝对路径。

  • SPARK-23645:添加文档 RE `pandas_udf` 和关键字参数。

  • SPARK-23649:跳过 UTF-8 中禁止的字符。

  • SPARK-23658:InProcessAppHandle 在 getLogger 中使用错误的类。

  • SPARK-23660:修复应用程序快速结束时 yarn 群集模式的异常。

  • SPARK-23670:修复 SparkPlanGraphWrapper 上的内存泄漏。

  • SPARK-23671:修复状态以启用 SHS 线程池。

  • SPARK-23691:尽量在 PySpark 测试中使用 sql_conf 实用工具。

  • SPARK-23695:修正 Kinesis 流测试的错误消息。

  • SPARK-23706:spark.conf.get(value, default=None) 应在 PySpark 中生成 None。

  • SPARK-23728:修复运行流测试时机器学习测试出现预期异常的问题。

  • SPARK-23729:解析 glob 时遵循 URI 分段。

  • SPARK-23759:无法将 Spark UI 绑定到特定的主机名/IP。

  • SPARK-23760:CodegenContext.withSubExprEliminationExprs 应正确保存/还原 CSE 状态。

  • SPARK-23769:删除不必要地禁用 Scalastyle 检查的注释。

  • SPARK-23788:修复 StreamingQuerySuite 中的争用问题。

  • SPARK-23802:PropagateEmptyRelation 可能在未解决的状态下退出查询计划。

  • SPARK-23806:与动态分配配合使用时,Broadcast.unpersist 可能导致严重异常。

  • SPARK-23808:在仅限测试的 spark 会话中设置默认的 Spark 会话。

  • SPARK-23809:Active SparkSession 应由 getOrCreate 设置。

  • SPARK-23816:已终止的任务应忽略 FetchFailures。

  • SPARK-23822:改善有关 Parquet 架构不匹配的错误消息。

  • SPARK-23823:在 transformExpression 中保留来源。

  • SPARK-23827:StreamingJoinExec 应确保将输入数据分区成特定数目的分区。

  • SPARK-23838:正在运行的 SQL 查询在 SQL 选项卡中显示为“已完成”。

  • SPARK-23881:修复测试 JobCancellationSuite 中出现的怪异消息“随机读取器的不间断迭代器”。

Sqoop

此版本提供了 Sqoop 1.4.6,但未提供其他 Apache 修补程序。

Storm

此版本提供 Storm 1.1.1 和以下 Apache 修补程序:

  • STORM-2652:JmsSpout 打开方法中引发异常。

  • STORM-2841:testNoAcksIfFlushFails UT 失败并出现 NullPointerException。

  • STORM-2854:公开 IEventLogger,使事件日志记录可插入。

  • STORM-2870:FileBasedEventLogger 泄漏非守护程序 ExecutorService,从而阻止进程完成。

  • STORM-2960:更好地强调为 Storm 进程设置正确 OS 帐户的重要性。

Tez

此版本提供 Tez 0.7.0 和以下 Apache 修补程序:

  • TEZ-1526:运行大型作业时,TezTaskID 的 LoadingCache 速度较慢。

Zeppelin

此版本提供了 Zeppelin 0.7.3,但未提供其他 Apache 修补程序。

ZooKeeper

此版本提供 ZooKeeper 3.4.6 和以下 Apache 修补程序:

  • ZOOKEEPER-1256:ClientPortBindTest 在 Mac OS X 上失败。

  • ZOOKEEPER-1901:[JDK8] 将子级排序,以便在 AsyncOps 测试中进行比较。

  • ZOOKEEPER-2423:由于安全漏洞而升级 Netty 版本 (CVE-2014-3488)。

  • ZOOKEEPER-2693:针对 wchp/wchc 四字母单词展开 DOS 攻击 (4lw)。

  • ZOOKEEPER-2726:造成潜在争用条件的问题的修补程序。

修复了常见漏洞和透露

本部分介绍此版本中已解决的所有常见漏洞和透露 (CVE) 问题。

CVE-2017-7676

摘要: Apache Ranger 策略评估忽略“*”通配符后面的字符
严重性: 关键
供应商: Hortonworks
受影响的版本: HDInsight 3.6 版本,包括 Apache Ranger 版本 0.5.x/0.6.x/0.7.0
受影响的用户: 使用在“*”通配符后面包含字符的 Ranger 策略的环境 – 如 my*test、test*.txt
影响: 策略资源匹配程序将忽略“*”通配符后面的字符,从而可能导致意外的行为。
修复详细信息: Ranger 策略资源匹配程序已更新,可以正确处理通配符匹配。
建议的操作: 升级到 HDI 3.6(使用 Apache Ranger 0.7.1+)。

CVE-2017-7677

摘要: 指定了外部位置时,Apache Ranger Hive 授权者应检查 RWX 权限
严重性: 关键
供应商: Hortonworks
受影响的版本: HDInsight 3.6 版本,包括 Apache Ranger 版本 0.5.x/0.6.x/0.7.0
受影响的用户: 对 hive 表使用外部位置的环境
影响: 在对 hive 表使用外部位置的环境中,Apache Ranger Hive 授权者应检查指定用于创建表的外部位置的 RWX 权限。
修复详细信息: Ranger Hive 授权者已更新,可以使用外部位置正确处理权限检查。
建议的操作: 用户应升级到 HDI 3.6(使用 Apache Ranger 0.7.1+)。

CVE-2017-9799

摘要: 可能以 Apache Storm 中错误用户的身份执行代码
严重性: 重要
供应商: Hortonworks
受影响的版本: HDP-2.4.0、HDP-2.5.0、HDP-2.6.0
受影响的用户: 在安全模式下使用 Storm,并使用 Blob 存储来分发基于拓扑的项目或使用 Blob 存储来分发任何拓扑资源的用户。
影响: 在某些情况下使用 storm 的配置时,在理论上,拓扑的所有者能够以不同的非 root 用户身份欺骗监督程序来启动辅助角色。 在最坏的情况下,这可能导致其他用户的安全凭据泄密。 此漏洞仅适用于已启用安全性的 Apache Storm 安装。
缓解措施: 目前没有解决方法,只能升级到 HDP 2.6.2.1。

CVE-2016-4970

摘要: 4.0.37.Final 之前的 Netty 4.0.x 以及 4.1.1.Final 之前的 4.1.x 中的 handler/ssl/OpenSslEngine.java 允许远程攻击者造成拒绝服务(无限循环)
严重性: 中等
供应商: Hortonworks
受影响的版本: 从 2.3.x 开始的 HDP 2.x.x
受影响的用户: 使用 HDFS 的所有用户。
影响: 影响较低,因为 Hortonworks 不直接在 Hadoop 代码库中使用 OpenSslEngine.java。
建议的操作: 升级到 HDP 2.6.3。

CVE-2016-8746

摘要: 策略评估中存在 Apache Ranger 路径匹配问题
严重性: 一般
供应商: Hortonworks
受影响的版本: 所有 HDP 2.5 版本,包括 Apache Ranger 版本 0.6.0/0.6.1/0.6.2
受影响的用户: Ranger 策略管理工具的所有用户。
影响: 在某些情况下,当策略包含通配符和递归标志时,Ranger 策略引擎不会正确匹配路径。
修复详细信息: 已修复策略评估逻辑
建议的操作: 用户应升级到 HDP 2.5.4+(使用 Apache Ranger 0.6.3+)或 HDP 2.6+(使用 Apache Ranger 0.7.0+)

CVE-2016-8751

摘要: Apache Ranger 存储跨站点脚本问题
严重性: 一般
供应商: Hortonworks
受影响的版本: 所有 HDP 2.3/2.4/2.5 版本,包括 Apache Ranger 版本 0.5.x/0.6.0/0.6.1/0.6.2
受影响的用户: Ranger 策略管理工具的所有用户。
影响: 进入自定义的策略条件时,Apache Ranger 容易受到存储跨站点脚本攻击。 当普通用户登录和访问策略时,管理员用户可能会存储一些任意 javascript 代码执行。
修复详细信息: 添加了逻辑来清理用户输入。
建议的操作: 用户应升级到 HDP 2.5.4+(使用 Apache Ranger 0.6.3+)或 HDP 2.6+(使用 Apache Ranger 0.7.0+)

修复了支持问题

修复的问题代表以前通过 Hortonworks 支持记录的、但现已在当前版本中解决的选定问题。 这些问题可能已在先前版本的“已知问题”部分中报告;这意味着,这些问题已由客户报告,或者由 Hortonworks 质量工程团队识别。

不正确的结果

Hortonworks Bug ID Apache JIRA 摘要
BUG-100019 YARN-8145 yarn rmadmin -getGroups 不返回已更新的用户组
BUG-100058 PHOENIX-2645 通配符与换行符不匹配
BUG-100266 PHOENIX-3521PHOENIX-4190 包含本地索引的结果错误
BUG-88774 HIVE-17617HIVE-18413HIVE-18523 query36 失败,行计数不匹配
BUG-89765 HIVE-17702 在 ORC 中的十进制读取器内进行错误的 isRepeating 处理。
BUG-92293 HADOOP-15042 当 numberOfPagesRemaining 为 0 时,Azure PageBlobInputStream.skip() 可以返回负值。
BUG-92345 ATLAS-2285 UI:已使用日期属性重命名保存的搜索。
BUG-92563 HIVE-17495HIVE-18528 聚合 ObjectStore 中的统计信息时收到错误的结果
BUG-92957 HIVE-11266 基于外部表的表统计信息 count(*) 错误结果
BUG-93097 RANGER-1944 用于管理审核的操作筛选器不起作用
BUG-93335 HIVE-12315 vectorization_short_regress.q 在执行双精度计算时出现错误结果问题
BUG-93415 HIVE-18258HIVE-18310 矢量化:包含重复列的化简端 GROUP BY MERGEPARTIAL 已破坏
BUG-93939 ATLAS-2294 创建类型时添加了额外的参数“description”
BUG-94007 PHOENIX-1751PHOENIX-3112 由于存在 HBase 部分行,Phoenix 查询返回 Null 值
BUG-94266 HIVE-12505 同一加密区域中的插入覆盖操作以无提示方式失败,以删除某些现有文件
BUG-94414 HIVE-15680 当 hive.optimize.index.filter=true 且在查询中两次引用同一个 ORC 表时,出现错误的结果
BUG-95048 HIVE-18490 使用 EXISTS 和 NOT EXISTS 且包含 non-equi 谓词的查询可能生成错误结果
BUG-95053 PHOENIX-3865 未针对第一个列系列筛选时,IS NULL 不会返回正确的结果
BUG-95476 RANGER-1966 在某些情况下,策略引擎初始化不会创建上下文扩充器
BUG-95566 SPARK-23281 当复合 order by 子句引用原始列和别名时,查询以错误的顺序生成结果
BUG-95907 PHOENIX-3451PHOENIX-3452PHOENIX-3469PHOENIX-4560 修复当查询包含聚合时 ORDER BY ASC 出现的问题
BUG-96389 PHOENIX-4586 UPSERT SELECT 不会考虑子查询的比较运算符。
BUG-96602 HIVE-18660 PCR 无法区分分区和虚拟列
BUG-97686 ATLAS-2468 [基本搜索]:当 NEQ 用于数字类型时,OR 大小写出现问题
BUG-97708 HIVE-18817 读取 ACID 表期间发生 ArrayIndexOutOfBounds 异常。
BUG-97864 HIVE-18833 “作为 orcfile 插入目录时”自动合并失败
BUG-97889 RANGER-2008 策略评估对于多行策略条件失败。
BUG-98655 RANGER-2066 Hbase 列系列由该列系列中的某个标记列授权
BUG-99883 HIVE-19073HIVE-19145 StatsOptimizer 可能损坏常量列

其他

Hortonworks Bug ID Apache JIRA 摘要
BUG-100267 HBASE-17170 由于类加载程序的差异,HBase 也正在重试 DoNotRetryIOException。
BUG-92367 YARN-7558 如果启用 UI 身份验证,获取运行中容器的日志的“yarn logs”命令会失败。
BUG-93159 OOZIE-3139 Oozie 不正确地验证工作流
BUG-93936 ATLAS-2289 将从 KafkaNotification 实现中移出嵌入的 kafka/zookeeper 服务器启动/停止代码
BUG-93942 ATLAS-2312 使用 ThreadLocal DateFormat 对象避免从多个线程同时使用
BUG-93946 ATLAS-2319 UI:在平面结构和树结构中的标记列表内删除第 25 个位置以后的某个标记需要刷新,这样才能从该列表中删除该标记。
BUG-94618 YARN-5037YARN-7274 能够在叶队列级别禁用弹性
BUG-94901 HBASE-19285 添加每个表的延迟直方图
BUG-95259 HADOOP-15185HADOOP-15186 将 adls 连接器更新为使用 ADLS SDK 的当前版本
BUG-95619 HIVE-18551 矢量化:VectorMapOperator 尝试为 Hybrid Grace 写入过许多的矢量列
BUG-97223 SPARK-23434 Spark 不应针对 HDFS 文件路径的`元数据目录`发出警告

性能

Hortonworks Bug ID Apache JIRA 摘要
BUG-83282 HBASE-13376HBASE-14473HBASE-15210HBASE-15515HBASE-16570HBASE-16810HBASE-18164 均衡器中的快速位置计算
BUG-91300 HBASE-17387 在 multi() 的 RegionActionResult 中减少异常报告的开销
BUG-91804 TEZ-1526 运行大型作业时,TezTaskID 的 LoadingCache 速度较慢
BUG-92760 ACCUMULO-4578 取消压缩 FATE 操作不会释放命名空间锁
BUG-93577 RANGER-1938 用于审核设置的 Solr 不会有效使用 DocValues
BUG-93910 HIVE-18293 Hive 无法压缩运行 HiveMetaStore 的标识不拥有的某个文件夹中的表
BUG-94345 HIVE-18429 压缩应处理不生成任何输出的情况
BUG-94381 HADOOP-13227HDFS-13054 处理 RequestHedgingProxyProvider RetryAction 顺序:FAIL < RETRY < FAILOVER_AND_RETRY。
BUG-94432 HIVE-18353 CompactorMR 应调用 jobclient.close() 来触发清理
BUG-94869 PHOENIX-4290PHOENIX-4373 为本地索引加盐 phoenix 表请求 Get on HRegion 的超出范围的行。
BUG-94928 HDFS-11078 修复 LazyPersistFileScrubber 中的 NPE
BUG-94964 HIVE-18269HIVE-18318HIVE-18326 多项 LLAP 修复
BUG-95669 HIVE-18577HIVE-18643 针对 ACID 分区表运行更新/删除查询时,HS2 读取所有分区。
BUG-96390 HDFS-10453 对大型群集中同一文件执行复制和删除造成的资源争用可能会导致 ReplicationMonitor 线程长时间停滞。
BUG-96625 HIVE-16110 还原“矢量化:支持 2 值 CASE WHEN,而不是故障回复到 VectorUDFAdaptor”
BUG-97109 HIVE-16757 使用已弃用的 getRows() 而不是新的 estimateRowCount(RelMetadataQuery...) 会造成严重的性能影响
BUG-97110 PHOENIX-3789 在 postBatchMutateIndispensably 中执行跨区域索引维护调用
BUG-98833 YARN-6797 TimelineWriter 不完全使用 POST 响应
BUG-98931 ATLAS-2491 更新 Hive 挂钩,以使用 Atlas v2 通知

可能的数据丢失

Hortonworks Bug ID Apache JIRA 摘要
BUG-95613 HBASE-18808 配置签入 BackupLogCleaner#getDeletableFiles() 的效率低下
BUG-97051 HIVE-17403 非托管表和事务表的串联失败
BUG-97787 HIVE-18460 压缩器不会将表属性传递给 Orc 写入器
BUG-97788 HIVE-18613 扩展 JsonSerDe 以支持 BINARY 类型

查询失败

Hortonworks Bug ID Apache JIRA 摘要
BUG-100180 CALCITE-2232 调整聚合索引时 AggregatePullUpConstantsRule 出现断言错误
BUG-100422 HIVE-19085 FastHiveDecimal abs(0) 将符号设置为 +ve
BUG-100834 PHOENIX-4658 IllegalStateException:无法对 ReversedKeyValueHeap 调用 requestSeek
BUG-102078 HIVE-17978 TPCDS 查询 58 和 83 在矢量化中生成异常。
BUG-92483 HIVE-17900 分析压缩器触发的列中的统计信息生成包含多个分区列的、格式不当的 SQL
BUG-93135 HIVE-15874HIVE-18189 将 hive.groupby.orderby.position.alias 设置为 true 时,Hive 查询返回错误结果
BUG-93136 HIVE-18189 禁用 cbo 时无法按位置排序
BUG-93595 HIVE-12378HIVE-15883 在 Hive 中的 HBase 映射表内插入十进制和二进制列失败
BUG-94007 PHOENIX-1751PHOENIX-3112 由于存在 HBase 部分行,Phoenix 查询返回 Null 值
BUG-94144 HIVE-17063 在首先删除分区的情况下,将覆盖分区插入外部表失败
BUG-94280 HIVE-12785 包含联合类型的视图和用于`强制转换`结构的 UDF 破坏
BUG-94505 PHOENIX-4525 GroupBy 执行中的整数溢出
BUG-95618 HIVE-18506 LlapBaseInputFormat - 负数组索引
BUG-95644 HIVE-9152 CombineHiveInputFormat:Tez 中的 Hive 查询失败并出现 java.lang.IllegalArgumentException 异常
BUG-96762 PHOENIX-4588 如果表达式的子级包含 Determinism.PER_INVOCATION,则也会克隆表达式
BUG-97145 HIVE-12245HIVE-17829 支持基于 HBase 的表的列注释
BUG-97741 HIVE-18944 DPP 期间错误地设置分组集位置
BUG-98082 HIVE-18597 LLAP:始终打包 org.apache.log4j 的 log4j2 API jar
BUG-99849 不适用 通过文件向导创建一个新表,以尝试使用默认数据库

安全性

Hortonworks Bug ID Apache JIRA 摘要
BUG-100436 RANGER-2060 使用 knox-sso 的 Knox 代理不适用于 ranger
BUG-101038 SPARK-24062 Zeppelin %Spark 解释器发生“连接被拒绝”错误,HiveThriftServer 中出现“必须指定机密密钥...”错误
BUG-101359 ACCUMULO-4056 在发布时将 commons-collection 的版本更新为 3.2.2
BUG-54240 HIVE-18879 如果 xercesImpl.jar 在类路径中,需要能够禁止在 UDFXPathUtil 中使用嵌入式元素
BUG-79059 OOZIE-3109 转义日志流的特定于 HTML 的字符
BUG-90041 OOZIE-2723 JSON.org 许可证现在为 CatX
BUG-93754 RANGER-1943 集合为空或 null 时,将跳过 Ranger Solr 授权
BUG-93804 HIVE-17419 ANALYZE TABLE...COMPUTE STATISTICS FOR COLUMNS 命令显示掩码表的计算统计信息
BUG-94276 ZEPPELIN-3129 Zeppelin UI 不会在 IE 中注销
BUG-95349 ZOOKEEPER-1256ZOOKEEPER-1901 升级 netty
BUG-95483 不适用 CVE 2017-15713 的修复
BUG-95646 OOZIE-3167 升级 Oozie 4.3 分支上的 tomcat 版本
BUG-95823 不适用 Knox:升级 Beanutils
BUG-95908 RANGER-1960 在删除快照时,HBase 身份验证不考虑表命名空间
BUG-96191 FALCON-2322FALCON-2323 升级 Jackson 和 Spring 版本以避免安全漏洞
BUG-96502 RANGER-1990 在 Ranger Admin 中添加单向 SSL MySQL 支持
BUG-96712 FLUME-3194 将 derby 升级到最新版本 (1.14.1.0)
BUG-96713 FLUME-2678 将 xalan 升级到 2.7.2 以处理 CVE-2014-0107 漏洞
BUG-96714 FLUME-2050 升级到 log4j2(推出正式版时)
BUG-96737 不适用 使用 java io 文件系统方法来问本地文件
BUG-96925 不适用 将 Hadoop 中的 Tomcat 从 6.0.48 升级到 6.0.53
BUG-96977 FLUME-3132 升级 tomcat jasper 库依赖项
BUG-97022 HADOOP-14799HADOOP-14903HADOOP-15265 升级具有 4.39 以上版本的 Nimbus JOSE JWT 库
BUG-97101 RANGER-1988 修复不安全的随机性
BUG-97178 ATLAS-2467 Spring 和 nimbus-jose-jwt 的依赖项升级
BUG-97180 不适用 升级 Nimbus-jose-jwt
BUG-98038 HIVE-18788 清理 JDBC PreparedStatement 中的输入
BUG-98353 HADOOP-13707 还原“如果在未配置 HTTP SPNEGO 的情况下启用 kerberos,则无法访问某些链接”
BUG-98372 HBASE-13848 通过凭据提供程序 API 访问 InfoServer SSL 密码
BUG-98385 ATLAS-2500 将其他标头添加到 Atlas 响应。
BUG-98564 HADOOP-14651 将 Okhttp 版本更新为 2.7.5
BUG-99440 RANGER-2045 使用“desc table”命令列出没有显式允许策略的 Hive 表列
BUG-99803 不适用 Oozie 应禁用 HBase 动态类加载

稳定性

Hortonworks Bug ID Apache JIRA 摘要
BUG-100040 ATLAS-2536 Atlas Hive 挂钩中 NPE
BUG-100057 HIVE-19251 具有 LIMIT 的 ObjectStore.getNextNotification 应使用较少的内存
BUG-100072 HIVE-19130 REPL LOAD 应用删除分区事件后引发 NPE。
BUG-100073 不适用 从 hiveserver 到数据节点的 close_wait 连接过多
BUG-100319 HIVE-19248 如果文件复制失败,REPL LOAD 不会引发错误。
BUG-100352 不适用 CLONE - RM 过于频繁地清除逻辑扫描/注册表 znode
BUG-100427 HIVE-19249 复制:WITH 子句无法在所有情况下正确地向任务传递配置
BUG-100430 HIVE-14483 java.lang.ArrayIndexOutOfBoundsException org.apache.orc.impl.TreeReaderFactory$BytesColumnVectorUtil.commonReadByteArrays
BUG-100432 HIVE-19219 如果请求的事件已清理,增量 REPL DUMP 应引发错误。
BUG-100448 SPARK-23637SPARK-23802SPARK-23809SPARK-23816SPARK-23822SPARK-23823SPARK-23838SPARK-23881 将 Spark2 更新到 2.3.0+ (4/11)
BUG-100740 HIVE-16107 JDBC:发生 NoHttpResponseException 时 HttpClient 应重试一次或多次
BUG-100810 HIVE-19054 Hive 函数复制失败
BUG-100937 MAPREDUCE-6889 添加 Job#close API 以关闭 MR 客户端服务。
BUG-101065 ATLAS-2587 为 HA 中的 /apache_atlas/active_server_info znode 设置读取 ACL,以便读取 Knox 代理。
BUG-101093 STORM-2993 使用时间轮换策略时,Storm HDFS Bolt 引发 ClosedChannelException
BUG-101181 不适用 PhoenixStorageHandler 不会正确处理谓词中的 AND
BUG-101266 PHOENIX-4635 org.apache.phoenix.hive.mapreduce.PhoenixInputFormat 中的 HBase 连接泄漏
BUG-101458 HIVE-11464 存在多个输出时缺少沿袭信息
BUG-101485 不适用 hive metastore thrift api 速度缓慢,导致客户端超时
BUG-101628 HIVE-19331 Hive 增量复制到云失败。
BUG-102048 HIVE-19381 FunctionTask 的 Hive 函数复制到云失败
BUG-102064 不适用 ReplCopyTask 中的 Hive 复制 [本地到本地] 测试失败
BUG-102137 HIVE-19423 ReplCopyTask 中的 Hive 复制 [本地到云] 测试失败
BUG-102305 HIVE-19430 HS2 和 hive 元存储 OOM 转储
BUG-102361 不适用 复制到目标 hive 群集(本地到 s3)的单个插入内容中存在多个插入结果
BUG-87624 不适用 启用 storm 事件日志记录导致工作线程持续关闭
BUG-88929 HBASE-15615 RegionServerCallable 需要重试时休眠时间错误
BUG-89628 HIVE-17613 删除较短的相同线程分配的对象池
BUG-89813 不适用 SCA:代码正确性:非同步方法重写同步方法
BUG-90437 ZEPPELIN-3072 如果存在过多的笔记本,Zeppelin UI 将会变慢/无响应
BUG-90640 HBASE-19065 HRegion#bulkLoadHFiles() 应等待并发 Region#flush() 完成
BUG-91202 HIVE-17013 使用基于视图选择的子查询删除请求
BUG-91350 KNOX-1108 NiFiHaDispatch 不会故障转移
BUG-92054 HIVE-13120 生成 ORC 拆分时传播 doAs
BUG-92373 FALCON-2314 将 TestNG 版本升级到 6.13.1 以避免 BeanShell 依赖关系
BUG-92381 不适用 testContainerLogsWithNewAPI 和 testContainerLogsWithOldAPI UT 失败
BUG-92389 STORM-2841 testNoAcksIfFlushFails UT 失败并出现 NullPointerException
BUG-92586 SPARK-17920SPARK-20694SPARK-21642SPARK-22162SPARK-22289SPARK-22373SPARK-22495SPARK-22574SPARK-22591SPARK-22595SPARK-22601SPARK-22603SPARK-22607SPARK-22635SPARK-22637SPARK-22653SPARK-22654SPARK-22686SPARK-22688SPARK-22817SPARK-22862SPARK-22889SPARK-22972SPARK-22975SPARK-22982SPARK-22983SPARK-22984SPARK-23001SPARK-23038SPARK-23095 将最新的 Spark2 更新到 2.2.1(1 月 16 日版)
BUG-92680 ATLAS-2288 通过 Hive 创建 hbase 表后运行 import-hive 脚本时出现 NoClassDefFoundError 异常
BUG-92760 ACCUMULO-4578 取消压缩 FATE 操作不会释放命名空间锁
BUG-92797 HDFS-10267HDFS-8496 在某些用例中减少数据节点锁争用
BUG-92813 FLUME-2973 hdfs 接收器中出现死锁
BUG-92957 HIVE-11266 基于外部表的表统计信息 count(*) 错误结果
BUG-93018 ATLAS-2310 在 HA 中,被动节点使用错误的 URL 编码重定向请求
BUG-93116 RANGER-1957 启用增量同步时,Ranger Usersync 不会定期同步用户或组。
BUG-93361 HIVE-12360 使用谓词下推在未压缩的 ORC 中进行错误查找
BUG-93426 CALCITE-2086 在某些情况下,大型授权标头导致 HTTP/413
BUG-93429 PHOENIX-3240 Pig 加载程序中出现 ClassCastException
BUG-93485 不适用 无法获取表 mytestorg.apache.hadoop.hive.ql.metadata.InvalidTableException:针对 LLAP 中的列运行分析表时找不到表
BUG-93512 PHOENIX-4466 java.lang.RuntimeException:响应代码 500 - 执行 spark 作业以连接到 phoenix 查询服务器并加载数据
BUG-93550 不适用 由于 scala 版本不匹配,Zeppelin %spark.r 不适用于 spark1
BUG-93910 HIVE-18293 Hive 无法压缩运行 HiveMetaStore 的标识不拥有的某个文件夹中的表
BUG-93926 ZEPPELIN-3114 >1d 压力测试后,笔记本和解释器不会在 zeppelin 中保存
BUG-93932 ATLAS-2320 包含查询的分类“*”引发 500 内部服务器异常。
BUG-93948 YARN-7697 由于日志聚合泄露 (part#1),NM 关闭并出现 OOM
BUG-93965 ATLAS-2229 DSL 搜索:orderby 非字符串属性引发异常
BUG-93986 YARN-7697 由于日志聚合泄露 (part#2),NM 关闭并出现 OOM
BUG-94030 ATLAS-2332 使用具有嵌套集合数据类型的属性创建类型失败
BUG-94080 YARN-3742YARN-6061 两个 RM 在安全群集中处于待机状态
BUG-94081 HIVE-18384 log4j2.x 库中发生 ConcurrentModificationException
BUG-94168 不适用 Yarn RM 关闭并且服务注册表处于错误的 ERROR 状态
BUG-94330 HADOOP-13190HADOOP-14104HADOOP-14814HDFS-10489HDFS-11689 HDFS 应受多个 KMS RUI 的支持
BUG-94345 HIVE-18429 压缩应处理不生成任何输出的情况
BUG-94372 ATLAS-2229 DSL 查询:hive_table name = ["t1","t2"] 引发 DSL 查询无效异常
BUG-94381 HADOOP-13227HDFS-13054 处理 RequestHedgingProxyProvider RetryAction 顺序:FAIL < RETRY < FAILOVER_AND_RETRY。
BUG-94432 HIVE-18353 CompactorMR 应调用 jobclient.close() 来触发清理
BUG-94575 SPARK-22587 如果 fs.defaultFS 和应用程序 jar 是不同的 url,Spark 作业将会失败
BUG-94791 SPARK-22793 Spark Thrift 服务器出现内存泄漏
BUG-94928 HDFS-11078 修复 LazyPersistFileScrubber 中的 NPE
BUG-95013 HIVE-18488 LLAP ORC 读取器缺少一些 null 检查
BUG-95077 HIVE-14205 Hive 不支持 AVRO 文件格式的联合类型
BUG-95200 HDFS-13061 SaslDataTransferClient#checkTrustAndSend 不应信任部分信任的通道
BUG-95201 HDFS-13060 为 TrustedChannelResolver 添加 BlacklistBasedTrustedChannelResolver
BUG-95284 HBASE-19395 [branch-1] TestEndToEndSplitTransaction.testMasterOpsWhileSplitting 失败并出现 NPE
BUG-95301 HIVE-18517 矢量化:修复 VectorMapOperator,以接受 VRB 并正确检查矢量化标志来支持 LLAP 缓存
BUG-95542 HBASE-16135 已删除的对等方的 rs 下的 PeerClusterZnode 可能永远无法删除
BUG-95595 HIVE-15563 忽略 SQLOperation.runQuery 中的非法操作状态转换异常,以公开实际异常。
BUG-95596 YARN-4126YARN-5750 TestClientRMService 失败
BUG-96019 HIVE-18548 修复 log4j 导入
BUG-96196 HDFS-13120 concat 后,快照差异可能会损坏
BUG-96289 HDFS-11701 未解析的主机中的 NPE 导致永久性 DFSInputStream 失败
BUG-96291 STORM-2652 JmsSpout 打开方法中引发异常
BUG-96363 HIVE-18959 避免在 LLAP 中创建额外的线程池
BUG-96390 HDFS-10453 对大型群集中同一文件执行复制和删除造成的资源争用可能会导致 ReplicationMonitor 线程长时间停滞。
BUG-96454 YARN-4593 AbstractService.getConfig() 中出现死锁
BUG-96704 FALCON-2322 submitAndSchedule 馈送时发生 ClassCastException
BUG-96720 SLIDER-1262 Kerberized 环境中的 Slider 函数测试失败
BUG-96931 SPARK-23053SPARK-23186SPARK-23230SPARK-23358SPARK-23376SPARK-23391 更新到最新的 Spark2(2 月 19 日版)
BUG-97067 HIVE-10697 ObjectInspectorConvertors#UnionConvertor 执行错误的转换
BUG-97244 KNOX-1083 HttpClient 默认超时应是一个有意义的值
BUG-97459 ZEPPELIN-3271 用于禁用计划程序的选项
BUG-97511 KNOX-1197 当服务中的 authentication=Anonymous 时不会添加 AnonymousAuthFilter
BUG-97601 HIVE-17479 不会针对更新/删除查询清理临时目录
BUG-97605 HIVE-18858 提交 MR 作业时不会解析作业配置中的系统属性
BUG-97674 OOZIE-3186 Oozie 无法使用通过 jceks://file/... 链接的配置
BUG-97743 不适用 部署 storm 拓扑时发生 java.lang.NoClassDefFoundError 异常
BUG-97756 PHOENIX-4576 修复主分支中失败的 LocalIndexSplitMergeIT 测试
BUG-97771 HDFS-11711 发生“打开的文件过多”异常时 DN 不应删除块
BUG-97869 KNOX-1190 Google OIDC 的 Knox SSO 支持已中断。
BUG-97879 PHOENIX-4489 Phoenix MR 作业中的 HBase 连接泄漏
BUG-98392 RANGER-2007 ranger-tagsync 的 Kerberos 票证无法续订
BUG-98484 不适用 Hive 增量复制到云无法正常进行
BUG-98533 HBASE-19934HBASE-20008 由于出现 Null 指针异常,Hbase 快照还原失败
BUG-98555 PHOENIX-4662 重新发送缓存时 TableResultIterator.java 中发生 NullPointerException
BUG-98579 HBASE-13716 停止使用 Hadoop 的 FSConstants
BUG-98705 KNOX-1230 向 Knox 发送许多并发请求导致 URL 损坏
BUG-98983 KNOX-1108 NiFiHaDispatch 不会故障转移
BUG-99107 HIVE-19054 函数复制应使用“hive.repl.replica.functions.root.dir”作为根
BUG-99145 RANGER-2035 使用 Oracle 后端访问包含空 implClass 的 servicedefs 时出错
BUG-99160 SLIDER-1259 Slider 在多宿主环境中无法工作
BUG-99239 ATLAS-2462 由于未在命令中提供任何表,针对所有表执行 Sqoop 导入引发 NPE
BUG-99301 ATLAS-2530 hive_process 和 hive_column_lineage 的名称属性开头存在换行符
BUG-99453 HIVE-19065 元存储客户端兼容性检查应包括 syncMetaStoreClient
BUG-99521 不适用 重新实例化迭代器时,未重新创建 HashJoin 的 ServerCache
BUG-99590 PHOENIX-3518 RenewLeaseTask 中出现内存泄漏
BUG-99618 SPARK-23599SPARK-23806 将 Spark2 更新到 2.3.0+ (3/28)
BUG-99672 ATLAS-2524 Hive 与 V2 通知挂钩 - 不正确地处理“alter view as”操作
BUG-99809 HBASE-20375 在 hbase spark 模块中删除 getCurrentUserCredentials 的使用

可支持性

Hortonworks Bug ID Apache JIRA 摘要
BUG-87343 HIVE-18031 支持“更改数据库”操作的复制。
BUG-91293 RANGER-2060 使用 knox-sso 的 Knox 代理不适用于 ranger
BUG-93116 RANGER-1957 启用增量同步时,Ranger Usersync 不会定期同步用户或组。
BUG-93577 RANGER-1938 用于审核设置的 Solr 不会有效使用 DocValues
BUG-96082 RANGER-1982 改善 Ranger Admin 和 Ranger KMS 分析指标的错误
BUG-96479 HDFS-12781 数据节点关闭后,在“名称节点”UI 中,“数据节点”选项卡引发警告消息。
BUG-97864 HIVE-18833 “作为 orcfile 插入目录时”自动合并失败
BUG-98814 HDFS-13314 如果检测到 FsImage 损坏,NameNode 应可选择性退出

升级

Hortonworks Bug ID Apache JIRA 摘要
BUG-100134 SPARK-22919 还原“升级 Apache httpclient 版本”
BUG-95823 不适用 Knox:升级 Beanutils
BUG-96751 KNOX-1076 将 nimbus-jose-jwt 更新为 4.41.2
BUG-97864 HIVE-18833 “作为 orcfile 插入目录时”自动合并失败
BUG-99056 HADOOP-13556 将 Configuration.getPropsWithPrefix 更改为使用 getProps 而不是迭代器
BUG-99378 ATLAS-2461ATLAS-2554 用于在 Titan 图形数据库中导出 Atlas 数据的迁移实用工具

可用性

Hortonworks Bug ID Apache JIRA 摘要
BUG-100045 HIVE-19056 当 ORC 文件包含 0 行时,FixAcidKeyIndex 中发生 IllegalArgumentException
BUG-100139 KNOX-1243 规范化在 KnoxToken 服务中配置的所需 DN
BUG-100570 ATLAS-2557 进行修复,以便当 UGI 中的组已错误设置或不为空时,能够查找 hadoop ldap 组
BUG-100646 ATLAS-2102 Atlas UI 改进:搜索结果页
BUG-100737 HIVE-19049 添加为 Druid 更改表和添加列的支持
BUG-100750 KNOX-1246 更新 Knox 中的服务配置,以支持 Ranger 的最新配置。
BUG-100965 ATLAS-2581 使用 V2 Hive 挂钩通知回归:将表移到不同的数据库
BUG-84413 ATLAS-1964 UI:支持对搜索表中的列排序
BUG-90570 HDFS-11384HDFS-12347 添加让均衡器分散 getBlocks 调用的选项,以避免 NameNode 的 rpc.CallQueueLength 峰值
BUG-90584 HBASE-19052 FixedFileTrailer 应识别 branch-1.x 中的 CellComparatorImpl 类
BUG-90979 KNOX-1224 用于支持 HA 中的 Atlas 的 Knox 代理 HADispatcher。
BUG-91293 RANGER-2060 使用 knox-sso 的 Knox 代理不适用于 ranger
BUG-92236 ATLAS-2281 使用 null/非 null 筛选器保存标记/类型属性筛选器查询。
BUG-92238 ATLAS-2282 如果存在 25 个以上的收藏项,只在创建后刷新时才显示保存的收藏搜索。
BUG-92333 ATLAS-2286 预生成的类型“kafka_topic”不应将“topic”属性声明为唯一属性
BUG-92678 ATLAS-2276 hdfs_path 类型实体的路径值在 hive-bridge 中设置为小写。
BUG-93097 RANGER-1944 用于管理审核的操作筛选器不起作用
BUG-93135 HIVE-15874HIVE-18189 将 hive.groupby.orderby.position.alias 设置为 true 时,Hive 查询返回错误结果
BUG-93136 HIVE-18189 禁用 cbo 时无法按位置排序
BUG-93387 HIVE-17600 使用户可设置 OrcFile 的“enforceBufferSize”。
BUG-93495 RANGER-1937 Ranger tagsync 应处理 ENTITY_CREATE 通知,以支持 Atlas 导入功能
BUG-93512 PHOENIX-4466 java.lang.RuntimeException:响应代码 500 - 执行 spark 作业以连接到 phoenix 查询服务器并加载数据
BUG-93801 HBASE-19393 使用 SSL 访问 HBase UI 时的 HTTP 413 FULL 标头。
BUG-93804 HIVE-17419 ANALYZE TABLE...COMPUTE STATISTICS FOR COLUMNS 命令显示掩码表的计算统计信息
BUG-93932 ATLAS-2320 包含查询的分类“*”引发 500 内部服务器异常。
BUG-93933 ATLAS-2286 预生成的类型“kafka_topic”不应将“topic”属性声明为唯一属性
BUG-93938 ATLAS-2283ATLAS-2295 分类的 UI 更新
BUG-93941 ATLAS-2296ATLAS-2307 基本搜索增强,可以选择性地排除子类型实体和子分类类型
BUG-93944 ATLAS-2318 UI:单击子标记两次会选择父标记
BUG-93946 ATLAS-2319 UI:在平面结构和树结构中的标记列表内删除第 25 个位置以后的某个标记需要刷新,这样才能从该列表中删除该标记。
BUG-93977 HIVE-16232 QuotedIdentifier 中的列支持统计信息计算
BUG-94030 ATLAS-2332 使用具有嵌套集合数据类型的属性创建类型失败
BUG-94099 ATLAS-2352 Atlas 服务器应提供配置来指定 Kerberos DelegationToken 的有效性
BUG-94280 HIVE-12785 包含联合类型的视图和用于`强制转换`结构的 UDF 破坏
BUG-94332 SQOOP-2930 Sqoop 作业 exec 不重写已保存的作业泛型属性
BUG-94428 不适用 数据平面探查器代理 REST API Knox 支持
BUG-94514 ATLAS-2339 UI:基本搜索结果视图中“列”内的修改也影响 DSL。
BUG-94515 ATLAS-2169 配置硬删除时删除请求失败
BUG-94518 ATLAS-2329 如果用户单击另一个错误的标记,会显示 Atlas UI 多个悬停标记
BUG-94519 ATLAS-2272 使用保存搜索 API 保存已拖动列的状态。
BUG-94627 HIVE-17731 将面向外部用户的向后兼容选项添加到 HIVE-11985
BUG-94786 HIVE-6091 为连接创建/关闭创建空的 pipeout 文件
BUG-94793 HIVE-14013 描述表未正确显示 unicode
BUG-94900 OOZIE-2606OOZIE-2658OOZIE-2787OOZIE-2802 设置 spark.yarn.jars 以修复包含 Oozie 的 Spark 2.0
BUG-94901 HBASE-19285 添加每个表的延迟直方图
BUG-94908 ATLAS-1921 UI:使用实体和特征属性的搜索:UI 不执行范围检查,并允许为整型和浮点数据类型提供超限值。
BUG-95086 RANGER-1953 对用户组页列表做了改进
BUG-95193 SLIDER-1252 python 2.7.5-58 中 Slider 代理失败并出现 SSL 验证错误
BUG 95314 YARN-7699 queueUsagePercentage 即将用作 getApp REST api 调用的 INF
BUG-95315 HBASE-13947HBASE-14517HBASE-17931 将系统表分配到具有最高版本的服务器
BUG-95392 ATLAS-2421 通知更新为支持 V2 数据结构
BUG-95476 RANGER-1966 在某些情况下,策略引擎初始化不会创建上下文扩充器
BUG-95512 HIVE-18467 支持整个仓库转储/加载 + 创建/删除数据库事件
BUG-95593 不适用 扩展 Oozie DB 实用工具以支持 Spark2 sharelib 创建
BUG-95595 HIVE-15563 忽略 SQLOperation.runQuery 中的非法操作状态转换异常,以公开实际异常。
BUG-95685 ATLAS-2422 导出:支持基于类型的导出
BUG-95798 PHOENIX-2714PHOENIX-2724PHOENIX-3023PHOENIX-3040 不要使用 guideposts 串行执行查询
BUG-95969 HIVE-16828HIVE-17063HIVE-18390 分区视图失败并出现 FAILED:IndexOutOfBoundsException 索引:1,大小:1
BUG-96019 HIVE-18548 修复 log4j 导入
BUG-96288 HBASE-14123HBASE-14135HBASE-17850 向后移植 Hbase 备份/还原 2.0
BUG-96313 KNOX-1119 Pac4J OAuth/OpenID 主体需可配置
BUG-96365 ATLAS-2442 对实体资源拥有只读权限的用户无法执行基本搜索
BUG-96479 HDFS-12781 数据节点关闭后,在“名称节点”UI 中,“数据节点”选项卡引发警告消息。
BUG-96502 RANGER-1990 在 Ranger Admin 中添加单向 SSL MySQL 支持
BUG-96718 ATLAS-2439 更新 Sqoop 挂钩以使用 V2 通知
BUG-96748 HIVE-18587 插入 DML 事件可能尝试针对目录计算校验和
BUG-96821 HBASE-18212 在独立模式下出现本地文件系统 HBase 日志警告消息:无法在类 org.apache.hadoop.fs.FSDataInputStream 中调用“unbuffer”方法
BUG-96847 HIVE-18754 REPL STATUS 应支持“with”子句
BUG-96873 ATLAS-2443 在传出的 DELETE 消息中捕获所需的实体属性
BUG-96880 SPARK-23230 当 hive.default.fileformat 是其他种类的文件类型时,创建文本文件表会导致 serde 错误
BUG-96911 OOZIE-2571OOZIE-2792OOZIE-2799OOZIE-2923 改善 Spark 选项分析
BUG-97100 RANGER-1984 Hbase 审核日志记录无法显示与访问过的列相关联的所有标记
BUG-97110 PHOENIX-3789 在 postBatchMutateIndispensably 中执行跨区域索引维护调用
BUG-97145 HIVE-12245HIVE-17829 支持基于 HBase 的表的列注释
BUG-97409 HADOOP-15255 LdapGroupsMapping 中的组名称支持大小写转换
BUG-97535 HIVE-18710 将 inheritPerms 扩展到 Hive 2.X 中的 ACID
BUG-97742 OOZIE-1624 sharelib JAR 的排除模式
BUG-97744 PHOENIX-3994 索引 RPC 优先级仍依赖于 hbase-site.xml 中的控制器工厂属性
BUG-97787 HIVE-18460 压缩器不会将表属性传递给 Orc 写入器
BUG-97788 HIVE-18613 扩展 JsonSerDe 以支持 BINARY 类型
BUG-97899 HIVE-18808 统计信息更新失败时使压缩更加可靠
BUG-98038 HIVE-18788 清理 JDBC PreparedStatement 中的输入
BUG-98383 HIVE-18907 创建实用工具来解决 HIVE-18817 中的 acid 键索引问题
BUG-98388 RANGER-1828 合理的编码做法 - 在 ranger 中添加其他标头
BUG-98392 RANGER-2007 ranger-tagsync 的 Kerberos 票证无法续订
BUG-98533 HBASE-19934HBASE-20008 由于出现 Null 指针异常,Hbase 快照还原失败
BUG-98552 HBASE-18083HBASE-18084 使大/小文件清理线程数在 HFileCleaner 中可配置
BUG-98705 KNOX-1230 向 Knox 发送许多并发请求导致 URL 损坏
BUG-98711 不适用 在未修改 service.xml 的情况下,NiFi 调度无法使用双向 SSL
BUG-98880 OOZIE-3199 让系统属性限制可配置
BUG-98931 ATLAS-2491 更新 Hive 挂钩,以使用 Atlas v2 通知
BUG-98983 KNOX-1108 NiFiHaDispatch 不会故障转移
BUG-99088 ATLAS-2511 提供相应的选项用于选择地将数据库/表从 Hive 导入 Atlas
BUG-99154 OOZIE-2844OOZIE-2845OOZIE-2858OOZIE-2885 Spark 查询失败并出现“java.io.FileNotFoundException: hive-site.xml (权限被拒绝)”异常
BUG-99239 ATLAS-2462 由于未在命令中提供任何表,针对所有表执行 Sqoop 导入引发 NPE
BUG-99636 KNOX-1238 修复网关的自定义信任存储设置
BUG-99650 KNOX-1223 Zeppelin 的 Knox 代理不按预期重定向 /api/ticket
BUG-99804 OOZIE-2858 HiveMain、ShellMain 和 SparkMain 不应在本地覆盖属性和配置文件
BUG-99805 OOZIE-2885 运行 Spark 操作不应该需要在类路径中使用 Hive
BUG-99806 OOZIE-2845 替换在 HiveConf 中设置变量的基于反射的代码
BUG-99807 OOZIE-2844 当 log4j.properties 缺失或不可读时提高 Oozie 操作的稳定性
RMP-9995 AMBARI-22222 切换 druid 以使用 /var/druid 目录而不是本地磁盘上的 /apps/druid

行为变更

Apache 组件 Apache JIRA 摘要 详细信息
Spark 2.3 不适用 Apache Spark 发行说明中所述的更改 - 提供了“弃用”文档和“行为变更”指南:https://spark.apache.org/releases/spark-release-2-3-0.html#deprecations

- 对于 SQL 部分,提供了另一篇详细“迁移”指南(从 2.3 到 2.2):http://spark.apache.org/docs/latest/sql-programming-guide.html#upgrading-from-spark-sql-22-to-23
Spark HIVE-12505 Spark 作业成功完成,但出现 HDFS 磁盘配额已满错误 场景: 当运行 insert overwrite 命令的用户的回收站文件夹中设置了配额时运行该命令。

以前的行为: 作业会成功,但无法将数据移到回收站。 结果可能错误地包含表中以前存在的一些数据。

新行为: 如果移到回收站失败,会永久删除文件。
Kafka 1.0 不适用 Apache Spark 发行说明中所述的更改 http://kafka.apache.org/10/documentation.html#upgrade_100_notable
Hive/Ranger INSERT OVERWRITE 需要其他 ranger hive 策略 场景:INSERT OVERWRITE 需要其他 ranger hive 策略

以前的行为: Hive INSERT OVERWRITE 查询像往常一样成功。

新行为: 升级到 HDP 2.6.x 之后,Hive INSERT OVERWRITE 查询意外失败并出现错误:

编译语句时出错:失败: HiveAccessControlException 权限被拒绝: 用户 jdoe 对 /tmp/ 没有写入权限*(状态=42000,代码=40000)

从 HDP-2.6.0 开始,Hive INSERT OVERWRITE 查询需要 Ranger URI 策略才能允许写入操作,即使已通过 HDFS 策略为用户授予了写入特权。

解决方法/预期的客户操作:

1.在 Hive 存储库下创建新策略。
2.在显示“数据库”的下拉列表中,选择“URI”。
3.更新路径(示例:/tmp/*)
4.添加用户和组并保存。
5.重试 insert 查询。
HDFS 不适用 HDFS 应受多个 KMS RUI 的支持 以前的行为: dfs.encryption.key.provider.uri 属性用于配置 KMS 提供程序路径。

新行为: 现已弃用 dfs.encryption.key.provider.uri,改用 hadoop.security.key.provider.path 来配置 KMS 提供程序路径。
Zeppelin ZEPPELIN-3271 用于禁用计划程序的选项 受影响的组件: Zeppelin-Server

以前的行为: 以前的 Zeppelin 版本未提供用于禁用计划程序的选项。

新行为: 默认情况下,用户不再会看到计划程序,因为它默认已禁用。

解决方法/预期的客户操作: 若要启用计划程序,需要通过 Ambari 在 Zeppelin 中的自定义 zeppelin 站点设置下添加值为 true 的 azeppelin.notebook.cron.enable。

已知问题

  • Spark 2.3

    • [SPARK-23523][SQL] 规则 OptimizeMetadataOnlyQuery 导致错误的结果

    • [SPARK-23406] 流到流的自联接中存在 Bug

    • 如果 Azure Data Lake Storage(第 2 代)是群集的默认存储,则 Spark 示例笔记本不可用。

  • Ranger 服务检查失败的解决方法

    • RANGER-1607:从以前的 HDP 版本升级到 HDP 2.6.2 时 Ranger 服务检查失败的解决方法。

      Note

      仅当已在 Ranger 中启用 SSL 时。

    尝试通过 Ambari 从以前的 HDP 版本升级到 HDP 2.6.1 时会出现此问题。 Ambari 使用 curl 调用对 Ambari 中的 Ranger 服务执行服务检查。 如果 Ambari 使用的 JDK 版本是 JDK-1.7,curl 调用将会失败并出现以下错误:

    curl: (35) error:14077410:SSL routines:SSL23_GET_SERVER_HELLO:sslv3 alert handshake failure

    出现此错误的原因是 Ranger 中使用的 tomcat 版本是 Tomcat-7.0.7*。 使用 JDK-1.7 会与 Tomcat-7.0.7* 中提供的默认加密法产生冲突。

    可通过两种方式解决此问题:

    • 将 Ambari 中使用的 JDK 从 JDK 1.7 更新到 JDK 1.8(请参阅 Ambari 参考指南中的更改 JDK 版本部分)。

    • 如果想要继续支持 JDK-1.7 环境:

      1. 在 Ambari Ranger 配置中的 ranger-admin-site 部分添加具有以下值的属性 ranger.tomcat.ciphers:

        SSL_RSA_WITH_RC4_128_MD5, SSL_RSA_WITH_RC4_128_SHA, TLS_RSA_WITH_AES_128_CBC_SHA, SSL_RSA_WITH_3DES_EDE_CBC_SHA

      2. 如果为 Ranger-KMS 配置了环境,请在 Ambari Ranger 配置中的 theranger-kms-site 部分添加具有以下值的属性 ranger.tomcat.ciphers:

        SSL_RSA_WITH_RC4_128_MD5, SSL_RSA_WITH_RC4_128_SHA, TLS_RSA_WITH_AES_128_CBC_SHA, SSL_RSA_WITH_3DES_EDE_CBC_SHA

    Note

    所述的值是工作示例,可能不会反映你的环境。 确保设置这些属性的方式与配置环境的方式相匹配。

  • RangerUI:转义在策略窗体中输入的策略条件文本

    受影响的组件: Ranger

    问题说明

    如果用户想要创建包含自定义策略条件和表达式的策略,或文本中含有特殊字符,则无法强制实施策略。 在数据库中保存策略之前,特殊字符将转换为 ASCII。

    特殊字符: & < > " ` '

    例如,保存策略后,条件 tags.attributes['type']='abc' 将转换为以下内容。

    tags.attds[&#x27;dsds&#x27;]=&#x27;cssdfs&#x27;

    可以通过在编辑模式下打开策略,查看包含这些字符的策略条件。

    解决方法

    • 选项 #1:通过 Ranger Rest API 创建/更新策略

      REST URL:http://<host>:6080/service/plugins/policies

      创建包含策略条件的策略:

      以下示例将创建标记为 `tags-test` 的策略,并通过选择 select、update、create、drop、alter、index、lock、all 等所有 hive 组件权限,将该策略分配到策略条件为 astags.attr['type']=='abc' 的 `public` 组。

      示例:

      curl -H "Content-Type: application/json" -X POST http://localhost:6080/service/plugins/policies -u admin:admin -d '{"policyType":"0","name":"P100","isEnabled":true,"isAuditEnabled":true,"description":"","resources":{"tag":{"values":["tags-test"],"isRecursive":"","isExcludes":false}},"policyItems":[{"groups":["public"],"conditions":[{"type":"accessed-after-expiry","values":[]},{"type":"tag-expression","values":["tags.attr['type']=='abc'"]}],"accesses":[{"type":"hive:select","isAllowed":true},{"type":"hive:update","isAllowed":true},{"type":"hive:create","isAllowed":true},{"type":"hive:drop","isAllowed":true},{"type":"hive:alter","isAllowed":true},{"type":"hive:index","isAllowed":true},{"type":"hive:lock","isAllowed":true},{"type":"hive:all","isAllowed":true}]}],"denyPolicyItems":[],"allowExceptions":[],"denyExceptions":[],"service":"tagdev"}'

      更新包含策略条件的现有策略:

      以下示例将更新标记为 `tags-test` 的策略,并通过选择 select、update、create、drop、alter、index、lock、all 等所有 hive 组件权限,将该策略分配到策略条件为 astags.attr['type']=='abc' 的 `public` 组。

      REST URL:http://<host-name>:6080/service/plugins/policies/<policy-id>

      示例:

      curl -H "Content-Type: application/json" -X PUT http://localhost:6080/service/plugins/policies/18 -u admin:admin -d '{"id":18,"guid":"ea78a5ed-07a5-447a-978d-e636b0490a54","isEnabled":true,"createdBy":"Admin","updatedBy":"Admin","createTime":1490802077000,"updateTime":1490802077000,"version":1,"service":"tagdev","name":"P0101","policyType":0,"description":"","resourceSignature":"e5fdb911a25aa7f77af5a9546938d9ed","isAuditEnabled":true,"resources":{"tag":{"values":["tags"],"isExcludes":false,"isRecursive":false}},"policyItems":[{"accesses":[{"type":"hive:select","isAllowed":true},{"type":"hive:update","isAllowed":true},{"type":"hive:create","isAllowed":true},{"type":"hive:drop","isAllowed":true},{"type":"hive:alter","isAllowed":true},{"type":"hive:index","isAllowed":true},{"type":"hive:lock","isAllowed":true},{"type":"hive:all","isAllowed":true}],"users":[],"groups":["public"],"conditions":[{"type":"ip-range","values":["tags.attributes['type']=abc"]}],"delegateAdmin":false}],"denyPolicyItems":[],"allowExceptions":[],"denyExceptions":[],"dataMaskPolicyItems":[],"rowFilterPolicyItems":[]}'

    • 选项 #2:应用 Javascript 更改

      更新 JS 文件的步骤:

      1. 在 /usr/hdp/current/ranger-admin 下找到 PermissionList.js 文件

      2. 找到 renderPolicyCondtion 函数的定义(行号:404)。

      3. 从该函数中删除以下行,即 display 函数下的行(行号:434)

        val = _.escape(val);//Line No:460

        删除上述行之后,Ranger UI 将允许你创建策略条件可以包含特殊字符的策略,并且针对同一策略执行策略评估将会成功。

弃用

正在升级

所有这些功能已在 HDInsight 3.6 中提供。 若要获取最新版本的 Spark、Kafka,请在创建 HDInsight 3.6 群集时选择 Spark、Kafka 服务版本。 若要获取 ADLS 支持,可以选择 ADLS 存储类型作为选项。 现有群集不会自动升级到这些版本。

在 2018 年 6 月后创建的所有新群集将自动获取所有开源项目的 1000 多个 bug 修复。 请遵循此指南,获取有关升级到较新 HDInsight 版本的最佳做法。