0

0

Hadoop自学笔记(三)MapReduce简介

php中文网

php中文网

发布时间:2016-06-07 15:55:43

|

1323人浏览过

|

来源于php中文网

原创

1. MapReduce Architecture MapReduce是一套可编程的框架,大部分MapReduce的工作都可以用Pig或者Hive完成,但是还是要了解MapReduce本身是如何工作的,因为这才是Hadoop的核心,并且可以为以后优化和自己写做准备。 Job Client, 就是用户 Job Tracker和Task

1. mapreduce architecture

MapReduce是一套可编程的框架,大部分MapReduce的工作都可以用Pig或者Hive完成,但是还是要了解MapReduce本身是如何工作的,因为这才是Hadoop的核心,并且可以为以后优化和自己写做准备。

Job Client, 就是用户

Job Tracker和Task Tracker也是一种Master - Slave构建

工作流程(MapReduce Pipeline)

Job Client提交了MapReduce的程序(比如jar包中的二进制文件),所需要的数据,结果输出位置,提交给Job Tracker. Job Tracker会首先询问Name Node, 所需要的数据都在哪些block里面,然后就近选择一个Task Tracker(离这些所需数据最近的一个task tracker,可能是在同一个Node上或者同一个Rack上或者不同rack上),把这个任务发送给该Task Tracker, Task Tracker来真正执行该任务。Task Tracker内部有Task Slots来真正执行这些任务。如果执行失败了,Task Tracker就好汇报给Job Tracker, Job Tracker就再分配给别的Task Tracker来执行。Task Tracker在执行过程中要不断的向Job Tracker汇报。最后Task Tracker执行完成后,汇报给Job Tracker,Job Tracker就更新任务状态为成功。

注意,当用户提交一个MapReduce任务的时候,不仅仅同时把任务提交给Job Tracker,同时还会拷贝一份到HDFS的一个公共位置(图中的咖啡位置),因为传递代码和命令相对要容易一些,然后Task Tracker就可以很方便的得到这些代码。

具体步骤就是图中的7步。

\

2. MapReduce Internals

Split阶段:根据Input Format,把输入数据分割成小部分,该阶段与Map任务同时运行,分割后就放到不同的Mapper里面。

Input Format: 决定了数据如何被分割放入Mapper。比如Log, 数据库,二进制码,等。

Map阶段:把分割后传入的splits转化成一些key-value对,如何转化取决于用户代码怎么写的。

Shuffle & Sort阶段:把Map阶段得到的数据归类,然后送给Reducers。

Reduce阶段:把送入的Map数据(Key, Value)按照用户的代码进行整合处理。

Output Format: Reduce阶段处理完后,结果按照此格式放入HDFS的输出目录。

Imperative Programming Paradigm: 把计算当做一系列改变程序状态的过程。也就是程序化编程。更加关注对象和状态。

Functional Programming Paradigm: 大致就是函数化编程,把一系列计算作为一个数学函数。Hadoop使用的是这种编程范式。有输入,有输出;没有对象没有状态。 

为了优化起见,Hadoop还添加了更多的一个接口,combine阶段,见下图。主要是在输送到Shuffle/sort阶段前,现在本地进行一次小的Reduce计算。这样可以省很多带宽(还记得job的代码放入一个公共区域了吗)

\

上面的整个过程看上去可能不那么直观,但是这是Hadoop最难理解的部分了。理解了这个流程(Hadoop Pipeline),就更容易理解以后的内容了。

3. MapReduce Example

举例子来说明,在实际的机器操作中Hadoop如何完成上述任务。

在Windows环境下安装了一个hyperV软件,里面有四个Hadoop节点,每个Hadoop节点都是一个Ubuntu环境。

\

可以看到上面有一个Name Node,还有三个Data Node。

首先,连接上Name Node,并且打开一个Data Node节点。进入Name Node的Ubuntu系统中,打开一个终端,输入jps,可以看到jvm里面正在运行的东西。

Flowith
Flowith

一款GPT4驱动的节点式 AI 创作工具

下载
\

在Data Node机器中运行同样命令,可以看到里面运行着DataNode, Jps, TaskTracker三个内容。

首先进入Data Node的机器里面,到根目录下面创建一个文件,叫words.txt,文件内容就是上图中要分析的一些词。

\

第二步,把这个Words.txt文件放入HDFS中。

首先

hadoop/bin/hadoop fs -ls

查看目前HDFS中的文件

然后新建一个文件夹

Hadoop/bin/hadoop fs -mkdir /data

\

我们可以使用浏览器来看看HDFS中的文件系统

浏览器中输入hnname:50070,打开Web UI

\

可以再Live Nodes里面看到刚刚新建的data文件夹,执行

hadoop/bin/hadoop fs -copyFromLocal words.txt /data

然后words.txt就拷贝到/data文件夹下了,可以使用Web UI来验证。

第三步,执行MapReduce 任务。这个任务是统计单词频率,这个任务已经由现成的jar包写好了,在hadoop/bin/目录下,hadoop-examples-1.2.0.jar. 这个文件里面有很多很多写好的MapReduce任务。

\

执行命令:

Hadoop/bin/hadoop jar hadoop/hadoop*examples.jar wordcount /data/words.txt /data/results

先指定jar包,再指定程序名wordcount, 再指定输入数据/data/words.txt 最后是输出目录/data/results, 没有目录会创建一个。

\

执行完成后,可以通过Web UI来看执行结果。

\

我擦,原来的图片太多了发不了,不得不说删掉几张。。。。

相关专题

更多
php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

129

2025.12.31

php网站源码教程大全
php网站源码教程大全

本专题整合了php网站源码相关教程,阅读专题下面的文章了解更多详细内容。

77

2025.12.31

视频文件格式
视频文件格式

本专题整合了视频文件格式相关内容,阅读专题下面的文章了解更多详细内容。

81

2025.12.31

不受国内限制的浏览器大全
不受国内限制的浏览器大全

想找真正自由、无限制的上网体验?本合集精选2025年最开放、隐私强、访问无阻的浏览器App,涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问,部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制,总有一款适合你!

60

2025.12.31

出现404解决方法大全
出现404解决方法大全

本专题整合了404错误解决方法大全,阅读专题下面的文章了解更多详细内容。

444

2025.12.31

html5怎么播放视频
html5怎么播放视频

想让网页流畅播放视频?本合集详解HTML5视频播放核心方法!涵盖<video>标签基础用法、多格式兼容(MP4/WebM/OGV)、自定义播放控件、响应式适配及常见浏览器兼容问题解决方案。无需插件,纯前端实现高清视频嵌入,助你快速打造现代化网页视频体验。

15

2025.12.31

关闭win10系统自动更新教程大全
关闭win10系统自动更新教程大全

本专题整合了关闭win10系统自动更新教程大全,阅读专题下面的文章了解更多详细内容。

12

2025.12.31

阻止电脑自动安装软件教程
阻止电脑自动安装软件教程

本专题整合了阻止电脑自动安装软件教程,阅读专题下面的文章了解更多详细教程。

5

2025.12.31

html5怎么使用
html5怎么使用

想快速上手HTML5开发?本合集为你整理最实用的HTML5使用指南!涵盖HTML5基础语法、主流框架(如Bootstrap、Vue、React)集成方法,以及无需安装、直接在线编辑运行的平台推荐(如CodePen、JSFiddle)。无论你是新手还是进阶开发者,都能轻松掌握HTML5网页制作、响应式布局与交互功能开发,零配置开启高效前端编程之旅!

2

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
尚学堂Mahout视频教程
尚学堂Mahout视频教程

共18课时 | 3.2万人学习

Node.js 教程
Node.js 教程

共57课时 | 7.8万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号