大数据安装hadoop

tech2024-06-13  66

大数据简介

分布式 由分布在不同主机上的进程(程序)协同子啊一起才能构成整个应用。 Browser/web server:瘦客户端程序. 大数据4V特征 1.Volumn : 体量大 2.Velocity : 速度快 3.Variaty : 样式多 4.Value : 价值密度低 Hadoop概念: 可靠的、可伸缩的、分布式计算的开源软件. 是一个框架、允许跨越计算机集群的大数据集处理,使用简单的编程模型(MapReduce)。 可从单个服务器扩展到几千台主机,每个节点提供了计算和存储的功能。而不是依赖高可用性的机器 依赖于应用层面上的实现, Hadoop 模块 1.hadoop common 公共类库 2.HDFS hadoop 分布式文件系统 3.Hadoop Yarn 作业调度和资源管理框架 4.Hadoop MapReduce 基于yarn系统的大数据集并行处理技术 MapReduce 工作原理:

Hadoop安装

主机配置

1、配置主机名

2、添加互信

3、生成密钥

4、远程登录

hadoop配置

1、解压hadoop压缩包

2、Hadoop环境变量配置

export HADOOP_HOME=/opt/hadoop export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export HADOOP_INSTALL=$HADOOP_HOME export PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

3、配置Hadoop ./etc/hadoop目录下的文件 (一)配置hadoop-env.sh文件

(二)配置core-site.xml文件

<property> <name>fs.defaultFS</name> <value>hdfs://192.168.206.34:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/hadoop/tmp</value> </property> <property> <name>hadoop.proxyuser.root.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.root.groups</name> <value>*</value> </property>

(三)配置hdfs-site.xml文件

<property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.secondary.http-address</name> <value>192.168.206.34:50090</value> </property>

(四)配置mapred-site.xml文件

<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>192.168.206.34:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>192.168.206.34:19888</value> </property>

(五)配置yarn-site.xml文件

<!-- reducer获取数据方式 --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <!-- 指定YARN的ResourceManager的地址 --> <property> <name>yarn.resourcemanager.hostname</name> <value>hadoop001</value> </property> <!-- 日志聚集功能使用 --> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <!-- 日志保留时间设置7--> <property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property>

(六)配置vi ./slaves 文件

4、格式化HDFS hadoop namenode -format

5、启动hadoop (一)start-all.sh

(二)启动历史服务 mr-jobhistory-daemon.sh start historyserver

6、访问Hadoop (一)http://192.168.56.137:50070 HDFS页面

(二)http://192.168.56.137:8088 YARN的管理界面

(三)http://192.168.56.126:19888/

如需搭建Hadoop集群,可参照:https://blog.csdn.net/qianchun22/article/details/108415883

最新回复(0)