`
hugh.wangp
  • 浏览: 288047 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

HIVE动态分区参数配置

    博客分类:
  • HIVE
阅读更多

设置如下参数开启动态分区:
hive.exec.dynamic.partition=true
默认值:false
描述:是否允许动态分区
hive.exec.dynamic.partition.mode=nonstrict
默认值:strict
描述:strict是避免全分区字段是动态的,必须有至少一个分区字段是指定有值的


设置如下参数配置动态分区的使用环境:
hive.exec.max.dynamic.partitions.pernode=100
默认值:100
描述:each mapper or reducer可以创建的最大动态分区数
hive.exec.max.dynamic.partitions=1000
默认值:1000
描述:一个DML操作可以创建的最大动态分区数
hive.exec.max.created.files=100000
默认值:100000
描述:一个DML操作可以创建的文件数

设置如下参数取消一些限制(HIVE 0.7后没有此限制):
hive.merge.mapfiles=false
默认值:true
描述:是否合并Map的输出文件
hive.merge.mapredfiles=false
默认值:false
描述:是否合并Reduce的输出文件
0
0
分享到:
评论
1 楼 onlyamoment 2018-11-13  
请问为什么要限制不合并文件呢?
事实上,用动态分区写表时候容易出现小文件过多的问题,设置文件在reduce输出端合并不是会减少小文件数吗?

相关推荐

    云数据库方案设计(1).doc

    磁盘发生变化时,数据库可以配置表空间的存储,以及表存储,分区的存储,动态 使用新增资源。 另外,随着实际业务的增长,数据库集群的负载可能超出初始设计的承受能力,使 得处理能力下降,不再满足业务需求,所以...

    云数据库方案设计.doc

    磁盘发生变化时,数据库可以配置表空间的存储,以及表存储,分区的存储,动态使 用新增资源。 另外,随着实际业务的增长,数据库集群的负载可能超出初始设计的承受能力,使得 处理能力下降,不再满足业务需求,所以...

    云数据库方案设计.docx

    磁盘发生变化时,数据库可以配置表空间的存储,以及表存储,分区的存储,动态使用新增资源。 另外,随着实际业务的增长,数据库集群的负载可能超出初始设计的承受能力,使得处理能力下降,不再满足业务需求,所以...

    Hadoop权威指南(中文版)2015上传.rar

    1.3.1 配置Hive 1.3.2 Hive服务 1.3.3 Metastore 1.4 和传统数据库进行比较 1.4.1 读时模式(Schema on Read)vs.写时模式(Schema on Write) 1.4.2 更新、事务和索引 1.5 HiveQL 1.5.1 数据类型 1.5.2 操作和函数 ...

    Hadoop权威指南 第二版(中文版)

     1.3.1 配置Hive  1.3.2 Hive服务  1.3.3 Metastore  1.4 和传统数据库进行比较  1.4.1 读时模式(Schema on Read)vs.写时模式(Schema onWrite)  1.4.2 更新、事务和索引  1.5 HiveQL  1.5.1 数据类型  ...

    Spark-Core学习知识笔记整理

    2.6Hive-on-Spark配置 13 第三章 Spark计算模型 15 1 RDD编程 15 1.1弹性分布式数据集RDD 15 1.2构建RDD对象 15 2RDD操作 15 2.1将函数传递给Spark 16 2.2了解闭包 16 2.3Pair RDD模型 17 2.4Spark常见转换操作 18 ...

    大数据学习计划.pdf

    Hive 的优化(分区、桶) ; Hive SQL 语句优化; Hive 常见故障诊断; 4 在上个模块中,OLAP 类型的需求得到了很好的解决⽅案,即针对数据查询分析的应⽤。但是这些组件对于数据的随机删改并不擅长。针对 此种 OLTP ...

    Hadoop硬实战 [(美)霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载 带书签目录 高清完整版.rar )

    6.4.2 参数配置 6.4.3 优化 shuffle 和 sort 阶段 技术点46 避免reducer 技术点47 过滤和投影 技术点48 使用 combiner 技术点49 超炫的使用比较器的快速排序 6.4.4 减轻倾斜 技术点50 收集倾斜数据 ...

    Hadoop实战(第2版)

    技术点41 内存交换技术点42 磁盘健康技术点43 网络6.3 可视化技术点44 提取并可视化任务执行时间6.4 优化 .6.4.1 剖析MapReduce 的用户代码 技术点45 剖析map 和reduce 任务 6.4.2 参数配置6.4.3...

    DataX Web分布式数据同步工具-其他

    23、通过动态参数配置指定hive分区,也可以配合增量实现增量数据动态插入分区; 24、任务类型由原来DataX任务扩展到Shell任务、Python任务、PowerShell任务; 25、添加HBase数据源支持,JSON构建可通过HBase数据源...

    Linkis-其他

    用户可以配置引擎的启动参数 用户可以设置变量 2. 支持标签功能 支持给EngineManager打标签 启动引擎时,支持为引擎打标签 支持通过标签访问目标引擎 3. AppGovernance应用治理实现 系统级、用户级应用全生命周期...

Global site tag (gtag.js) - Google Analytics