MapReduce概述
1. MapReduce定义
MapReduce,简称MR,是一种用于处理和生成大数据集的编程模型,它是Hadoop的核心组件之一,主要用于离线计算,MapReduce将数据处理任务划分为两个阶段:Map阶段和Reduce阶段,在Map阶段,输入数据被分割成若干个独立的子任务,每个子任务处理输入数据的一部分并生成中间结果,在Reduce阶段,这些中间结果被合并以产生最终输出。
2. MapReduce优缺点
优点:
高扩展性:能够处理大规模数据集。
容错性强:通过数据冗余和任务重试机制,确保任务在出错时仍能完成。
高效性:通过分布式计算,提高数据处理效率。
缺点:
延迟较高:由于是离线计算框架,不适合实时数据处理。
复杂性高:需要编写和维护MapReduce程序,对开发人员要求较高。
3. MapReduce核心思想
MapReduce的核心思想是“移动计算,而不是移动数据”,这意味着计算节点会尽量靠近数据所在位置进行计算,从而减少数据传输的成本和时间。
MapReduce工作原理
1. Map端流程
每个输入分片会让一个map任务来处理,默认情况下,以HDFS的一个块的大小(默认为64M)为一个分片。
map输出的结果会暂且放在一个环形内存缓冲区中(该缓冲区的大小默认为100M),当该缓冲区快要溢出时(默认为缓冲区大小的80%),会在本地文件系统中创建一个溢出文件,将该缓冲区中的数据写入这个文件。
在写入磁盘之前,线程首先根据reduce任务的数目将数据划分为相同数目的分区,也就是一个reduce任务对应一个分区的数据,其实分区就是对数据进行hash的过程,然后对每个分区中的数据进行排序,如果此时设置了Combiner,将排序后的结果进行Combia操作,这样做的目的是让尽可能少的数据写入到磁盘。
当map任务输出最后一个记录时,可能会有很多的溢出文件,这时需要将这些文件合并,合并的过程中会不断地进行排序和combia操作,目的有两个:1.尽量减少每次写入磁盘的数据量;2.尽量减少下一复制阶段网络传输的数据量,最后合并成了一个已分区且已排序的文件,为了减少网络传输的数据量,这里可以将数据压缩,只要将mapred.compress.map.out设置为true就可以了。
将分区中的数据拷贝给相对应的reduce任务,有人可能会问:分区中的数据怎么知道它对应的reduce是哪个呢?其实map任务一直和其父TaskTracker保持联系,而TaskTracker又一直和JobTracker保持心跳,所以JobTracker中保存了整个集群中的宏观信息,只要reduce任务向JobTracker获取对应的map输出位置就ok了哦。
2. Reduce端流程
Reduce会接收到不同map任务传来的数据,并且每个map传来的数据都是有序的,如果reduce端接受的数据量相当小,则直接存储在内存中(缓冲区大小由mapred.job.shuffle.input.buffer.percent属性控制,表示用作此用途的堆空间的百分比),如果数据量超过了该缓冲区大小的一定比例(由mapred.job.shuffle.merge.percent决定),则对数据合并后溢写到磁盘中。
随着溢写文件的增多,后台线程会将它们合并成一个更大的有序的文件,这样做是为了给后面的合并节省时间,其实不管在map端还是reduce端,MapReduce都是反复地执行排序,合并操作,现在终于明白了有些人为什么会说: 排序是hadoop的灵魂。
合并的过程中会产生许多的中间文件(写入磁盘了),但MapReduce会让写入磁盘的数据尽可能地少,并且最后一次合并的结果并没有写入磁盘,而是直接输入到reduce函数。
MapReduce安装步骤
1. 环境准备
操作系统:MapReduce仅在Linux风格的操作系统上工作。
Java安装:MapReduce基于Java开发,因此需要在系统上安装Java,可以通过访问Oracle官网下载并安装适合你操作系统的Java版本,确保Java安装成功后,设置JAVA_HOME环境变量。
Hadoop安装:访问Hadoop官网下载适合你操作系统的Hadoop版本,解压下载的文件到适当的位置。
2. 配置文件
进入Hadoop目录,打开conf文件夹,编辑coresite.xml、hdfssite.xml、mapredsite.xml文件,配置文件中的主要参数如下:
coresite.xml:设置HDFS的地址和端口号(fs.defaultFS)。
hdfssite.xml:设置HDFS的相关参数,如数据块大小(dfs.block.size)、副本因子(dfs.replication)等。
mapredsite.xml:设置MapReduce的相关参数,如作业调度器类型(mapred.jobtracker.taskScheduler)等。
3. 启动Hadoop
进入Hadoop目录,执行以下命令启动Hadoop:
启动HDFS:sbin/startdfs.sh
启动MapReduce:sbin/startmapred.sh
查看运行状态:sbin/stopdfs.sh
和sbin/stopmapred.sh
。
常见问题解答
1. MapReduce与Hadoop的关系是什么?
答:MapReduce是Hadoop的核心组件之一,用于处理和生成大数据集,Hadoop是一个开源的分布式计算平台,除了MapReduce外,还包括HDFS(Hadoop Distributed File System)等组件,MapReduce负责数据处理,HDFS负责数据存储。
2. 如何在MapReduce中设置Java环境变量?
答:在安装Java后,需要设置JAVA_HOME环境变量,以便Hadoop能够找到Java运行环境,可以通过以下步骤设置JAVA_HOME环境变量:
1、打开终端或命令提示符。
2、使用文本编辑器打开~/.bashrc文件(对于Linux系统)或~/.bash_profile文件(对于Mac系统)。
3、在文件末尾添加以下行:export JAVA_HOME=/path/to/java
,其中/path/to/java
是Java安装目录的路径。
4、保存并关闭文件。
5、在终端或命令提示符中运行以下命令使更改生效:source ~/.bashrc
(对于Linux系统)或source ~/.bash_profile
(对于Mac系统)。
步骤 | 详细说明 | 操作 |
1. 环境准备 | 确保安装了Java开发环境(JDK)和Hadoop | 安装JDK,配置环境变量 |
2. 下载Hadoop | 访问Hadoop官网(https://hadoop.apache.org/)下载最新版本的Hadoop | 下载Hadoop安装包 |
3. 解压安装包 | 将下载的Hadoop安装包解压到指定目录 | 解压到/opt/hadoop 目录 |
4. 配置环境变量 | 在~/.bashrc 文件中添加Hadoop环境变量 | 编辑文件并添加export HADOOP_HOME=/opt/hadoop 和export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin |
5. 初始化Hadoop | 在Hadoop根目录下执行./bin/hadoop namenode format | 格式化NameNode |
6. 配置Hadoop | 编辑etc/hadoop/coresite.xml 、etc/hadoop/hdfssite.xml 、etc/hadoop/yarnsite.xml 和etc/hadoop/mapredsite.xml 文件 | 配置文件中的相关参数,如数据存储路径、文件系统、资源管理等 |
7. 启动Hadoop服务 | 执行sbin/startdfs.sh 启动HDFS服务,执行sbin/startyarn.sh 启动YARN服务 | 启动Hadoop相关服务 |
8. 验证Hadoop安装 | 在终端执行hdfs dfs version 和yarn version 命令 | 验证Hadoop版本信息 |
9. 编写MapReduce程序 | 使用Java编写MapReduce程序,并编译成jar文件 | 编写并编译MapReduce程序 |
10. 运行MapReduce程序 | 在终端执行hadoop jar 命令 | 运行MapReduce程序 |
注意:以上步骤仅供参考,具体操作可能因操作系统和Hadoop版本而有所不同。
原创文章,作者:未希,如若转载,请注明出处:https://www.kdun.com/ask/1217494.html
本网站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本网站。如有问题,请联系客服处理。
发表回复