MapReduce如何仅更新表分区信息，且只支持OBS表？

MapReduce只支持更新表分区信息，且仅限于OBS（对象存储服务）表。

MapReduce是一种编程模型，用于处理和生成大数据集，在实际应用中，MapReduce的输出数据通常会加载在不同子目录下，例如按照日期、地区等进行分区，然后统一到外部表，本文将详细介绍MapReduce如何更新表分区信息，特别是对于OBS表的支持。

MapReduce更新表分区信息（只支持OBS表）

分区机制概述

在MapReduce中，数据被划分为多个分区（Partition），每个分区包含一定量的数据，分区是数据处理的基本单位，每个分区独立处理，最终结果汇总输出，合理地设置分区可以提高作业的执行效率和数据的处理能力。

分区类型

1、哈希分区（Hash Partitioning）：使用哈希函数将Map阶段输出的键映射到一组可能的哈希值中的一个，然后将这些哈希值通过取模运算映射到一组预定义的分区编号中，这种方法分布均匀性较好，有利于负载均衡。

2、范围分区（Range Partitioning）：根据键的范围将键值对分配到不同的分区中，这种方式可以根据键的特性进行灵活的分区策略设计，适用于一些特定的业务场景。

3、默认分区（Default Partitioning）：如果用户没有显式地指定分区函数，则MapReduce框架会使用默认的分区策略，这通常将键的哈希值与分区数目取模，以将键值对均匀地分配到各个分区中。

4、自定义分区（Custom Partitioning）：允许用户根据具体业务需求自定义分区函数，以实现特定的分区策略，需要用户编写和维护自定义的分区函数。

OBS表的分区更新

假设我们有一个Hive表tmp_fjs_dpi，该表存储了不同类型的DPI数据，包括adsl、3g和4g，我们需要更新这个表的分区信息，以下是具体的步骤：

1、创建外部表：

   CREATE EXTERNAL TABLEtmp_fjs_dpi(account string,date string,city string,domain string,para string,value string) 
   PARTITIONED BY (dpitype string) 
   ROW FORMAT DELIMITED 
   FIELDS TERMINATED BY '|' 
   STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
   OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' 
   LOCATION 'hdfs://nameserviceha/tmp/fjs/dpi';

2、查看现有分区：

   SHOW PARTITIONS tmp_fjs_dpi;

3、增加新分区：

   ALTER TABLE tmp_fjs_dpi ADD PARTITION (dpitype ='adsl') LOCATION 'hdfs://nameserviceha/tmp/fjs/dpi/adsl';
   ALTER TABLE tmp_fjs_dpi ADD PARTITION (dpitype ='3g') LOCATION 'hdfs://nameserviceha/tmp/fjs/dpi/3g';
   ALTER TABLE tmp_fjs_dpi ADD PARTITION (dpitype ='4g') LOCATION 'hdfs://nameserviceha/tmp/fjs/dpi/4g';

4、删除分区：

   ALTER TABLE tmp_fjs_dpi DROP PARTITION (dpitype ='4g');

5、查询分区数据：

   SELECT count(*) FROM tmp_fjs_dpi WHERE dpitype='adsl';

MapReduce如何仅更新表分区信息，且只支持OBS表？

相关推荐

如何实现MapReduce与OBS文件系统的自定义文件对接？

如何在MapReduce中实现按Key排序以及按列对数据集进行排序？

如何理解MapReduce的核心原理及其对人力资源配置的影响？

如何在MapReduce框架中实现Map输出的合并？

发表回复