Linux/Python学习论坛-京峰教育

 找回密码
 立即注册

一键登录:

搜索
热搜: 活动 交友 discuz
查看: 982|回复: 0

Hadoop2.0安装方式概述(HDFS, 单机, NameNode HA)

[复制链接]

238

主题

288

帖子

1925

积分

超级版主

Rank: 8Rank: 8

积分
1925
QQ
发表于 2015-3-18 11:22:44 | 显示全部楼层 |阅读模式
Hadoop 2.0安装方式
        自动安装部署
                Ambari(Apache官方的):http://ambari.apache.org/
                Minos(中国小米公司):https://github.com/XiaoMi/minos
        使用RPM包安装部署
                Apache Hadoop不提供
                HDP和CDH提供(简单的命令就可以部署)
        使用JAR包安装部署
                各版本均提供(需要自己一步步搞定)


Hadoop 2.0安装部署流程
        准备硬件(linux操作系统)
        准备软件安装包,并安装基础软件(主要是JDK)
        将Hadoop安装包分发到各个节点的同一个目录下,并解压
        修改配置文件
        启动服务
        验证是否启动成功
       
硬件配置要求
        测试环境
                一台PC机或者服务器
        生产环境
                小于100个节点 建议每台机器配置不小于
                        dual quad-core 2.6 Ghz CPU,
                        24 GB of DDR3 RAM
                        dual 1 Gb Ethernet NICs
                        a SAS drive controller
                大于100个节点 需提高master节点(ResourceManager/NameNode)硬件配置
               
安装注意
        建议使用非root用户安装hadoop
       
Java运行环境安装
        每个节点均需要安装
        如果使用CDH5,需使用JDK 7
       
Hadoop 2.0发行版
        Apache Hadoop
                最原始版本,所有其他发行版均基于该发行版实现的
                0.23.x:非稳定版
                2.x:稳定版
        HDP
                Hortonworks公司的发行版
        CDH
                Cloudera公司的的Hadoop发行版
                包含CDH4和CDH5两个版本
                        CDH4;基于Apache Hadoop 0.23.0版本开发
                        CDH5:基于Apache Hadoop 2.2.0版本开发
        不同发行版兼容性
                架构、部署和使用方法一致,不同之处仅在若干内部实现。
               
Hadoop 2.0发行版选择
        推荐使用商用公司的开源发行版(生产环境)
                HDP或CDH
                        好处: 1)Hadoop生态系统中所有软件打包在一起,用户不会面临版本选择问题 2)完善的文档,个别之处独特的优化
                CDH4安装包下载地址:http://archive.cloudera.com/cdh4/cdh/4
                CDH5安装包下载地址:http://archive.cloudera.com/cdh5/cdh/5/


Hadoop 2.0安装包目录结构分析
        bin
                Hadoop最基本的管理脚本和使用脚本所在目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop。
        etc
                Hadoop配置文件所在的目录,包括core-site.xml、hdfs-site.xml、mapred-site.xml等从Hadoop 1.0继承而来的配置文件和yarn-site.xml等Hadoop 2.0新增的配置文件。
        include
                对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce程序。
        lib
                该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用。
        libexec
                各个服务对应的shell配置文件所在目录,可用于配置日志输出目录、启动参数(比如JVM参数)等基本信息。
        sbin
                Hadoop管理脚本所在目录,主要包含HDFS和YARN中各类服务的启动/关闭脚本。
        share
                Hadoop各个模块编译后的jar包所在目录。


Hadoop 2.0测试环境安装部署概述
        将安装包hadoop-2.2.0.tar.gz存放到某一目录下,并解压
        修改解压后的目录中的文件夹etc/hadoop下的xml配置文件(如果文件不存在,则自己创建)
                hadoop-env.sh修改以下配置:
                        export JAVA_HOME=/home/dongxicheng/hadoop/jdk1.6.0_45
                Slaves文件修改为以下配置:
                        YARN001
                mapred-site.xml(在标签<configuration>和</configuration>之间增加配置项):
                        <property>
                                <name>mapreduce.framework.name</name>
                                <value>yarn</value>
                        </property>
                core-site.xml(其中“YARN001”是在/etc/hosts中设置的host,如果未设置,则换为localhost)(在标签<configuration>和</configuration>之间增加配置项):
                        <property>
                                <name>fs.default.name</name>
                                <value>hdfs://YARN001:8020</value>
                        </property>
                yarn-site.xml(在标签<configuration>和</configuration>之间增加配置项):
                        <property>
                                <name>yarn.nodemanager.aux-services</name>
                                <value>mapreduce_shuffle</value>
                        </property>
                core-site.xml(在标签<configuration>和</configuration>之间增加配置项):
                        <property>
                                <name>dfs.replication</name>
                                <value>1</value>
                        </property>
        启动服务
                格式化HDFS
                        bin/hadoop namenode -format
                启动HDFS
                        sbin/ start-dfs.sh
                启动YARN
                        sbin/start-yarn.sh
        验证是否启动成功
                执行jsp命令应该有NameNode, DataNode, NodeManager, ResourceManager, SecondaryNameNode
                YARN Web界面
                        访问URL地址
                                http://yarn001:8088
                HDFS Web界面
                        访问URL地址
                                http://yarn001:50070
        常见问题
                每次机器重启后,Hadoop无法启动成功
                        解决方案
                                在core-site.xml中增加以下两个配置(在标签<configuration>和</configuration>之间增加配置项):
                                        <property>
                                                <name>dfs.namenode.name.dir</name>
                                                <value>/home/cc/hadoop/dfs/name</value>
                                        </property>
                                        <property>
                                                <name>dfs.datanode.data.dir</name>
                                                <value>/home/cc/hadoop/dfs/data</value>
                                        </property>
Hadoop 2.0生产环境安装部署概述
        将安装包hadoop-2.2.0.tar.gz存放到某一目录下,并解压;
        修改解压后的目录中的文件夹etc/hadoop下的xml配置文件(如果文件不存在,则自己创建),包括hadoop-env.sh、mapred-site.xml、core-site.xml、hdfs-site.xml和yarn-site.xml;
        格式化并启动HDFS
        启动YARN


HDFS 2.0的HA配置注意事项
        主备NameNode有多种配置方法,推荐使用Journal Node方式。为此,需要至少准备3个节点作为Journal Node,这三个节点可与其他服务,比如NodeManager共用节点
        主备两个NameNode应位于不同机器上,这两台机器不要再部署其他服务,即它们分别独享一台机器。(注:HDFS 2.0中无需再部署和配置Secondary Name,备NameNode已经代替它完成相应的功能)
        主备NameNode之间有两种切换方式:手动切换和自动切换,其中,自动切换是借助Zookeeper实现的,因此,需单独部署一个Zookeeper集群(通常为奇数个节点,至少3个)
       
HDFS HA部署流程
        hdfs-site.xml配置
                dfs.nameservices
                        集群中命名服务列表(自定义)
                dfs.ha.namenodes.${ns}
                        命名服务中的namenode逻辑名称(自定义)
                dfs.namenode.rpc-address.${ns}.${nn}
                        命名服务中逻辑名称对应的RPC地址
                dfs.namenode.http-address.${ns}.${nn}
                        命名服务中逻辑名称对应的HTTP地址
                dfs.namenode.name.dir
                        NameNode fsiamge存放目录
                dfs.namenode.shared.edits.dir
                        主备NameNode同步元信息的共享存储系统
                dfs.journalnode.edits.dir
                        Journal Node数据存放目录
        启动/关闭HDFS
                (所有操作均在Hadoop安装目录下进行。)
                启动
                        在各个JournalNode节点上,输入以下命令启动journalnode服务:
                                sbin/hadoop-daemon.sh start journalnode
                        在[nn1]上,对其进行格式化,并启动:
                                bin/hdfs namenode -format
                                sbin/hadoop-daemon.sh start namenode
                        在[nn2]上,同步nn1的元数据信息:
                                bin/hdfs namenode -bootstrapStandby
                        在[nn2],启动NameNode:
                                sbin/hadoop-daemon.sh start namenode
                        (经过以上四步操作,nn1和nn2均处理standby状态)
                        在[nn1]上,将NameNode切换为Active
                                bin/hdfs haadmin -transitionToActive nn1
                        在[nn1]上,启动所有datanode
                                sbin/hadoop-daemons.sh start datanode
                停止
                        在[nn1]上,输入以下命令 sbin/stop-dfs.sh


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|京峰教育,只为有梦想的人 ( 京ICP备15013173号 )

GMT+8, 2020-8-6 15:32 , Processed in 0.031946 second(s), 14 queries , Apc On.

快速回复 返回顶部 返回列表