在centos上整合hdfs(hadoop分布式文件系统)与yarn(资源调度器)通常需要遵循以下步骤:
第一步:安装Hadoop
首先,在CentOS中安装Hadoop。以下是基础安装流程:
下载Hadoop
wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz tar -xzvf hadoop-3.3.1.tar.gz -C /usr/local/
设置环境变量
编辑/etc/profile.d/hadoop.sh文件,加入如下内容:
export HADOOP_HOME=/usr/local/hadoop-3.3.1 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
之后使配置生效:
source /etc/profile.d/hadoop.sh
配置Hadoop
修改$HADOOP_HOME/etc/hadoop/hadoop-env.sh文件,指定Java路径:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
调整$HADOOP_HOME/etc/hadoop/core-site.xml文件,配置HDFS:
fs.defaultFS hdfs://localhost:9000
更新$HADOOP_HOME/etc/hadoop/hdfs-site.xml文件,设定HDFS副本数量等参数:
dfs.replication 1
编辑$HADOOP_HOME/etc/hadoop/yarn-site.xml文件,配置YARN:
yarn.resourcemanager.hostname localhost yarn.nodemanager.aux-services mapreduce_shuffle
修改$HADOOP_HOME/etc/hadoop/mapred-site.xml文件,配置MapReduce:
mapreduce.framework.name yarn
第二步:格式化HDFS
初次启动HDFS前,需执行格式化操作:
一套面向小企业用户的企业网站程序!功能简单,操作简单。实现了小企业网站的很多实用的功能,如文章新闻模块、图片展示、产品列表以及小型的下载功能,还同时增加了邮件订阅等相应模块。公告,友情链接等这些通用功能本程序也同样都集成了!同时本程序引入了模块功能,只要在系统默认模板上创建模块,可以在任何一个语言环境(或任意风格)的适当位置进行使用!
hdfs namenode -format
第三步:启动Hadoop集群
开启HDFS和YARN服务:
start-dfs.sh start-yarn.sh
第四步:确认集群状态
查看HDFS和YARN的状态:
jps
理想情况下,你将看到这些进程:
- NameNode
- DataNode
- SecondaryNameNode
- ResourceManager
- NodeManager
第五步:浏览Web界面
利用浏览器访问HDFS和YARN的Web界面以确认集群运行状况:
- HDFS: https://www.php.cn/link/b9d0cdbab65a298d077a7b9794f97cd5
- YARN: https://www.php.cn/link/0d88763f1847f6cefc78c651ecc42cdf
第六步:运行简单MapReduce任务
可以执行以下命令运行一个基础的MapReduce任务来检测集成效果:
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /input /output
保证/input目录已存在且包含一些文本文件。
按照上述步骤,你应该能在CentOS上顺利完成HDFS与YARN的集成。如遇问题,可查阅日志文件获取详细信息。









