×

hadoop集群配置文件

hadoop集群配置文件(如何部署active-active的Hadoop集群)

admin admin 发表于2023-09-08 18:39:25 浏览30 评论0

抢沙发发表评论

本文目录

如何部署active-active的Hadoop集群

不明白题主的意思。如果是要部署一个namenode和一个secondary namenode的高可用环境,只需要先配置zookeeper集群,再通过conf下的配置文件进行配置就好了。

如何为Hadoop集群选择正确的硬件

选择并采购Hadoop硬件时需要一些基准测试,应用场景测试或者Poc,以充分了解你所在企业的工作负载情况。但Hadoop集群也支持异构的硬件配置,所以如果在不了解工作负载的情况下,建议选择较为均衡的硬件配置。还需要注意一点,Hadoop平台往往都会使用多种组件,资源的使用情况往往都会不一样,专注于多租户的设计包括安全管理,资源隔离和分配,将会是你成功的关键。

配置hadoop分布式集群一台虚拟系统,二台实体系统可以吗

可以

准备工作

1.安装虚拟机 VMware Workstation

2.在虚拟机上安装linux操作系统 这里在虚拟机上安装的linux操作系统为ubuntu10.04。其实用哪个linux系统都是可以的,比如用centos, redhat, fedora等均可,完全没有问题。

3.准备3个虚拟节点 如果已经完成第2步,那就已经准备好了第一个虚拟节点。准备第二个和第三个虚拟节点有两种方法: method1:分别安装两遍linux系统,太繁琐,放弃。 method2:在刚安装的第一个虚拟节点,将整个系统目录复制来形成第二个和第三个虚拟节点。 按照hadoop集群的基本要求,其中一个是master节点,用于运行hadoop程序中的namenode,secondorynamenode和jobtracker任务。另外两个节点为slave节点,其中一个用于冗余目的。slave节点用于运行hadoop程序中的datanode和tasktracker任务。所以模拟hadoop集群至少要有3个节点。

4.重命名主机名 因为前面复制粘贴产生的两个节点和第一个节点的主机名一样。 重命名主机名:Vim /etc/hostname 以下是我对三个结点的ubuntu系统主机分别命名为:master, node1, node2   

安装

1.配置hosts文件 (1)hosts文件 用于确定每个节点的IP地址,方便后续中master节点能快速查到并访问各个节点。三个虚拟节点上均需要配置此文件。 (2)查看和修改ip地址 **查看**ip地址使用ipconfig命令:可以知道是192.168.1.100  **更改**ip地址使用sudo ipconfig eth1:  (3)hosts文件地址 hosts文件路径为;/etc/hosts,这里hosts文件配置如下: 

2.建立hadoop运行账号 为hadoop集群专门设置一个用户组和用户。上述3个虚机结点均需要进行以下步骤来完成hadoop运行帐号的建立: step1:新建hadoop组:sudo groupadd hadoop step2:增加一个zhm用户,属于上面的hadoop组,且具有admin权限:sudo useradd -s /bin/bash -d /home/zhm -m zhm -g hadoop -G admin step3:设置zhm用户的登录密码:sudo passwd zhm step4:切换到zhm用户中:sudo zhm

3.配置ssh免密码连入 (1)可靠性验证 hadoop集群的各个节点之间需要进行数据访问,因此被访问的节点对于访问该节点的用户节点必须进行可靠性验证。hadoop采取是ssh的方法,通过秘钥验证及数据加密进行远程安全登录操作。 (2)ssh ssh通过RSA算法来产生公钥和秘钥,在数据传输过程中对数据进行加密来保障数据的可靠与安全。公钥部分为公共,网络任意节点均可以访问。私钥部分用于对数据加密。 (3)免密码连入 (注意下面输入下面这些命令时,一定要看清节点名和所在目录等前提条件) 如果hadoop对每一个节点的访问都进行验证,将大大降低效率,所以可以配置SSH免密连入。 step1:每个节点分别产生公钥和密钥(这里的命令没看懂)。  产生目录在用户主目录下的.ssh目录中,id_dsa为公钥,id_dsa.pub为私钥。 cd .ssh/ 到达此目录下 ls 列出该目录下所有文件  step2:将公钥文件复制成authorized_keys文件,这个步骤是必须的。 cat id_dsa.pub 》》 authorized_keys  step3 : 将step1~step2在另外两个节点重复完成。 step4:单机回环ssh免密码登录测试 即在单机节点上用ssh登录,检测是否成功。成功后注销退出。 注意标红圈的指示,有以上信息表示操作成功,单点回环SSH登录及注销成功:ssh localhost yes 查看登录成功信息 exitstep5:将step4在另外两个节点重复完成。 **step6:**master节点通过ssh免密登录两个slave节点 为了实现这个功能,两个slave结点的公钥文件中必须要包含主结点的公钥信息,这样master就可以顺利安全地访问这两个slave结点。 如下过程显示了node1结点通过scp命令远程登录master结点,并复制master的公钥文件到当前的目录下,这一过程需要密码验证。接着,将master结点的公钥文件追加至authorized_keys文件中 scp zhm@master:~/ .ssh/id_dsa.pub ./master_dsa.pub (注意,前面是node1哦!ps这个命令没看懂) cat master_dsa.pub 》》 authorized_keys  step7 : 将step6在另一个slave节点中重复完成。 **step8:**master通过ssh远程免密码连接slave测试 ssh node1 yes(首次连接需要) exit  再执行一遍ssh node1,如果没有yes出现,就表示成功了。  step9 : 将step8在另一个slave节点中重复完成。 **step10 : **master自身进行ssh免密登录测试  

4.下载并安装hadoop安装包 目前我使用的版本为hadoop-0.20.2,因为《hadoop权威指南》这本书也是针对这个版本介绍的。 解压后hadoop软件目录在/home/zhm/hadoop下

5.配置namenode,修改site文件 (1)准备工作:安装jdk 下载的版本:jdk1.7.0_09 解压位置:/opt/jdk1.7.0_09 step1:在profile文件(路径:/etc/profile)中添加如下代码:  step2:执行如下代码:step3:将step1~step2对另外两个节点重复完成。 (2)修改core-site.xml、hdfs-site.xml、mapred-site.xml这三个文件 site文件是hadoop的配置文件,存放在/hadoop/conf下。 配置如下(因为并没有实际操作,所以不知道他修改了哪些地方,待研究???): core-site.xml  hdfs-site.xml  mapred-site.xml 

6.配置hadoop-env.sh文件 

提交作业给Hadoop集群怎么解决

为了实现远程作业的提交:首先,要确保本地机器的用户名需要跟远程集群的用户名一致(在实验环境中,集群的用户名是hadoop,因此要在本地机器上创建一个hadoop用户)。其次,要确保本地机器上的用户对hadoop执行文件和配置文件具备相应的权限(在实验环境中,hadoop用户需要对hadoop安装文件具有执行权限;需要对hadoop配置文件具备读权限;需要对作业的jar文件具备执行权限等)。再次,本地机器的hadoop配置文件需要与集群的配置文件一致。在一般情况下直接将集群上的配置文件拷贝下来即可。所有这些完成后使用下面命令进行作业的提交hadoop --config 配置文件目录 jar 作业.jar 其他参数注意:在本次作业提交实验过程中还发现一些问题,hadoop在通过配置文件进行启动的过程中已经知道HDFS是使用的何种文件系统。因此,在使用的过程中不需要在添加hdfs://namenode:port/。注意,如果添加了hdfs://namenode:port/一定要注意端口与配置文件的端口是不是一致。我们知道,在命令行中输入的参数具有较高的优先级。以下面的命令为例:hadoop --config ~/conf fs -ls direcotry其中directory是不需要以hdfs://namenode:port/开头的,因为hadoop会根据配置文件~/conf进行默认判断。如果directory以hdfs://namenode:port/作为开头,那么一定要注意port。如果你没有显示表明port,默认的port是8020。在本次实验中,HDFS core-site设置的是hdfs://namenode:9001/,而我们在执行命令的时候输入的是hadoop --config ~/conf fs -ls hdfs://namenode/这样就导致了两者的端口不一致,从而造成了麻烦。

如何配置Hadoop环境

资源下载

1、JDK下载: 下载链接 2、hadoop: 下载链接 3、下载完成后验证一下下载,将计算的MD5值与官网的进行对比已验证安装包的准确性:

md5sum ./hadoop-2.6.*.tar.gz | tr “a-z“ “A-Z“ # 计算md5值,并转化为大写,方便比较1

一、创建Hadoop用户

创建hadoop用户,并分配以用户名为家目录/home/hadoop,并将其加入到sudo用户组,创建好用户之后,以hadoop用户登录:

sudo useradd -m hadoop -s /bin/bash    sudo adduser hadoop sudosudo passwd hadoop # 设置hadoop用户密码123

二、安装JDK、Hadoop及配置环境变量

安装,解压JDK到/usr/lib/java/路径下,Hadoop到/usr/local/etc/hadoop/路径下:

tar zxf ./hadoop-2.6.*.tar.gzmv ./hadoop-2.6.* /usr/local/etc/hadoop # 将 /usr/local/etc/hadoop作为Hadoop的安装路径12

解压完成之后,可验证hadoop的可用性:

cd /usr/local/etc/hadoop./bin/hadoop version # 查看hadoop的版本信息12

若在此处,会出现类似以下的错误信息,则很有可能是该安装包有问题。

Error: Could not find or load main class org.apache.hadoop.util.VersionInfo1

配置环境,“/etc/profile”文件,在其后添加如下信息:

export HADOOP_HOME=/usr/local/etc/hadoopexport JAVA_HOME=/usr/lib/java/jdk1.8.0_45export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=$PATH:${JAVA_HOME}/bin:${JRE_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin12345

使配置的变量生效:

source /etc/profile1

三、测试一下

在此我们可以运行一个简单的官方Demo:

cd `echo $HADOOP_HOME` # 到hadoop安装路径mkdir ./inputcp ./etc/hadoop/*.xml ./inputhadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output ’dfs+’1234

输出的结果应该会是:

1   dfsadmin 1

  • 这里有一点需要注意,该Example程序运行时不能已存在output目录,否则或将无法执行!

  • 四、Hadoop的伪分布式环境搭建

    什么是伪分布式?Hadoop 伪分布式模式是在一台机器上模拟Hadoop分布式,单机上的分布式并不是真正的分布式,而是使用线程模拟的分布式。分布式和伪分布式这两种配置也很相似,唯一不同的地方是伪分布式是在一台机器上配置,也就是名字节点(namenode)和数据节点(datanode)均是同一台机器。

    需要配置的文件有core-site.xml和hdfs-site.xml这两个文件他们都位于${HADOOP_HOME}/etc/hadoop/文件夹下。 其中core-site.xml:

  •  1 《?xml version=“1.0“ encoding=“UTF-8“?》
  •  2 《?xml-stylesheet type=“text/xsl“ href=“configuration.xsl“?》
  •  3 《!--
  •  4   Licensed ...
  •    --》
  • 18  
  • 19 《configuration》
  • 20   《property》
  • 21     《name》hadoop.tmp.dir《/name》
  • 22     《value》file:/home/hadoop/tmp《/value》
  • 23     《description》Abase for other temporary directories.《/description》
  • 24   《/property》
  • 25   《property》
  • 26     《name》fs.default.name《/name》
  • 27     《value》hdfs://master:9000《/value》
  • 28   《/property》
  • 29 《/configuration》 1234567891011121314151617
  • 文件hdfs-site.xml的配置如下:

  •  1 《?xml version=“1.0“ encoding=“UTF-8“?》
  •  2 《?xml-stylesheet type=“text/xsl“ href=“configuration.xsl“?》
  •  3 《!--
  •  4   Licensed ...
  •    --》
  • 18  
  • 19 《configuration》
  • 20   《property》
  • 21     《name》dfs.replication《/name》
  • 22     《value》1《/value》
  • 23   《/property》
  • 24   《property》
  • 25     《name》dfs.namenode.name.dir《/name》
  • 26     《value》file:/home/hadoop/tmp/dfs/name《/value》
  • 27   《/property》
  • 28   《property》
  • 29     《name》dfs.datanode.data.dir《/name》
  • 30     《value》file:/home/hadoop/tmp/dfs/data《/value》
  • 31   《/property》                                                                          
  • 32 《/configuration》1234567891011121314151617181920
  • 配置完成后,执行格式化命令,使HDFS将制定的目录进行格式化:

  •    hdfs namenode -format1
  • 若格式化成功,在临近输出的结尾部分可看到如下信息: 

    五、启动HDFS

    启动HDFS的脚本位于Hadoop目录下的sbin文件夹中,即:

  •    cd `echo $HADOOP_HOME`
  •    ./sbin/start-dfs.sh # 启动HDFS脚本12
  • 在执行start-dfs.sh脚本启动HDFS时,可能出现类似如下的报错内容:

  •    localhost: Error: JAVA_HOME is not set and could not be found.1
  • 很明显,是JAVA_HOME没找到,这是因为在hadoop-env.sh脚本中有个JAVA_HOME=${JAVA_HOME},所以只需将${JAVA_HOME}替换成你的JDK的路径即可解决:

  •    echo $JAVA_HOME # /usr/lib/java/jdk1.*.*_**
  •    vim ./etc/hadoop/hadoop-env.sh # 将‘export JAVA_HOME=${JAVA_HOME}’字段替换成‘export JAVA_HOME=/usr/lib/java/jdk1.*.*_**’即可12
  • 再次执行

  •    `echo $HADOOP_HOME`/sbin/start-all.sh1
  • 如果成功,应该会有如下输出: 也可以执行以下命令判断是否启动:

  •    jps1
  • 若已成功运行起来了,会有类似如下输出:  对了,初次执行貌似还有两次确认,输入“yes”即是。对应的启动,自然也有关闭咯:

  •    `echo $HADOOP_HOME`/sbin/stop-dfs.sh1
  • 当成功启动之后,可以在浏览器通过访问网址例如在此配置了两个datanode,则这边一共有 2 个 datanodes:

     也可通过http://192.168.2.109:50070 如果发现并没有出现如上信息,则使用刷新节点命令进行刷新:

  •    hdfs dfsadmin -refreshNodes1
  • 八、HDFS集群实例测试

    依然是之前的那个示例,首先,创建一个数据源文件夹,并添加数据:

  •    hdfs dfs -mkdir /input
  •    hdfs dfs -put /usr/local/etc/hadoop/etc/hadoop/*.xml /input12
  • 运行mapreduce示例:

  •    hadoop jar /usr/local/etc/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep /input /output ’dfs+’1
  • holding…

如何搭建50t的hadoop集群

先决条件确保在你集群中的每个节点上都安装了所有必需软件。 获取Hadoop软件包。 安装安装Hadoop集群通常要将安装软件解压到集群内的所有机器上。通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves。我们用HADOOP_HOME指代安装的根路径。通常,集群里的所有机器的HADOOP_HOME路径相同。配置接下来的几节描述了如何配置Hadoop集群。配置文件对Hadoop的配置通过conf/目录下的两个重要配置文件完成:hadoop-default.xml - 只读的默认配置。 hadoop-site.xml - 集群特有的配置。 要了解更多关于这些配置文件如何影响Hadoop框架的细节,请看这里。此外,通过设置conf/hadoop-env.sh中的变量为集群特有的值,你可以对bin/目录下的Hadoop脚本进行控制。集群配置要配置Hadoop集群,你需要设置Hadoop守护进程的运行环境和Hadoop守护进程的运行参数。Hadoop守护进程指NameNode/DataNode 和JobTracker/TaskTracker。配置Hadoop守护进程的运行环境管理员可在conf/hadoop-env.sh脚本内对Hadoop守护进程的运行环境做特别指定。至少,你得设定JAVA_HOME使之在每一远端节点上都被正确设置。管理员可以通过配置选项HADOOP_*_OPTS来分别配置各个守护进程。 下表是可以配置的选项。

部署hadoop生产集群时为了域名转换需要哪些配置

一、实验环境:Macos下VirtualBox中三台安装centos6.3虚拟机主机名别名IP地址系统版本角色lhmasterlhmaster.lihui.hadoop192.168.1.4Centos6.3masterlhslave01lhslave01.lihui.hadoop192.168.1.5Centos6.3slavelhslave02lhslave02.lihui.hadoop192.168.1.6Centos6.3slave配置说明:DNS服务器配置在lhmaster(master)节点上,对lhmaster、lhslave01、lhslave02节点的主机名进行解析。 二、安装配置DNS1.安装bind软件包检测bing是否安装,如图所示未安装执行yum进行安装,如图安装结果,如图安装bing其他相关包,如下:安装结果:如图2.修改bind配置文件1)    执行命令vim/etc/named.conf修改配置文件named.conf修改前,如图修改后:2)        修改配置文件named.rfc1912.zones,在/etc/named.conf玩呢间最后是named.rfc1912.zones的路径include“/etc/named.rfc1912.zones“执行命令vim/etc/named.rfc.1912.zones修改结果如下图:3)        创建上一步中的域名配置文件lihui.hadoop.zone和反向配置文件1.168.192.in-addr.zone如下命令:#ls1.168.192.in-addr.zone dynamic      named.empty   slaveschroot         lihui.hadoop.zone named.localhostdata          named.ca     named.loopback--修改lihui.hadoop.zone和1.168.192.in-addr.zonelihui.hadoop.zone中添加正向配置,如下:1.168.192.in-addr.zone中添加反向配置,如下:4)        修改各节点/etc/resolv.conf文件在每个节点的/etc/resolv.conf文件中加入服务器ip地址本次测试加入:nameserver192.168.1.4注意:目前网上大部分资料中都是如此设置,设置完后运行没有什么问题,但是一旦重启机器后,/etc/resolv.conf会恢复原值,所以使用另一种方式就是修改/etc/sysconfig/network-scripts/ifcfg-eth0这个文件:在其中加入DNS1=192.168.4这样设置后,/etc/resolv.conf里面根本就不需要设置。servicenetworkrestart 后,可以发现/etc/resolv.conf里面就有刚才加入的dns的解析ip了。不过对于其他的系统是否也是这样的,要是遇到同样的问题。就这样设一下试试3.验证测试

配置hadoop集群是怎么配置的

在过去,大数据处理主要是采用标准化的刀片式服务器和存储区域网络(SAN)来满足网格和处理密集型工作负载。然而随着数据量和用户数的大幅增长,基础设施的需求已经发生变化,硬件厂商必须建立创新体系,来满足大数据对包括存储刀片,SAS(串行连接SCSI)开关,外部SATA阵列和更大容量的机架单元的需求。即寻求一种新的方法来存储和处理复杂的数据,Hadoop正是基于这样的目的应运而生的。Hadoop的数据在集群上均衡分布,并通过复制副本来确保数据的可靠性和容错性。因为数据和对数据处理的操作都是分布在服务器上,处理指令就可以直接地发送到存储数据的机器。这样一个集群的每个服务器器上都需要存储和处理数据,因此必须对Hadoop集群的每个节点进行配置,以满足数据存储和处理要求。Hadoop框架中最核心的设计是为海量数据提供存储的HDFS和对数据进行计算的MapReduce。MapReduce的作业主要包括从磁盘或从网络读取数据,即IO密集工作,或者是计算数据,即CPU密集工作。Hadoop集群的整体性能取决于CPU、内存、网络以及存储之间的性能平衡。因此运营团队在选择机器配置时要针对不同的工作节点选择合适硬件类型。一个基本的Hadoop集群中的节点主要有:Namenode负责协调集群中的数据存储,DataNode存储被拆分的数据块,Jobtracker协调数据计算任务,最后的节点类型是Secondarynamenode,帮助NameNode收集文件系统运行的状态信息。在集群中,大部分的机器设备是作为Datanode和TaskTracker工作的。Datanode/TaskTracker的硬件规格可以采用以下方案:4个磁盘驱动器(单盘1-2T),支持JBOD2个4核CPU,至少2-2.5GHz16-24GB内存千兆以太网Namenode提供整个HDFS文件系统的namespace管理,块管理等所有服务,因此需要更多的RAM,与集群中的数据块数量相对应,并且需要优化RAM的内存通道带宽,采用双通道或三通道以上内存。硬件规格可以采用以下方案:8-12个磁盘驱动器(单盘1-2T)2个4核/8核CPU16-72GB内存千兆/万兆以太网Secondarynamenode在小型集群中可以和Namenode共用一台机器,较大的群集可以采用与Namenode相同的硬件。考虑到关键节点的容错性,建议客户购买加固的服务器来运行的Namenodes和Jobtrackers,配有冗余电源和企业级RAID磁盘。最好是有一个备用机,当 namenode或jobtracker 其中之一突然发生故障时可以替代使用。目前市场上的硬件平台满足Datanode/TaskTracker节点配置需求的很多,,据了解深耕网络安全硬件平台多年的立华科技瞄准了Hadoop的发展前景,适时推出了专门针对NameNode的设备----双路至强处理器搭载12块硬盘的FX-3411,将计算与存储完美融合,四通道内存的最大容量可达到256GB,完全满足NameNode对于一个大的内存模型和沉重的参考数据缓存组合的需求。同时在网络方面,FX-3411支持的2个PCI-E*8的网络扩展,网络吞吐达到80Gbps,更是远远满足节点对千兆以太网或万兆以太网的需求。此外针对Datanode/TaskTracker等节点的配置需求,立华科技不仅推出了可支持单路至强E38核处理器和4块硬盘的标准品FX-3210,还有可以全面客制化的解决方案,以满足客户的不同需求。Hadoop集群往往需要运行几十,几百或上千个节点,构建匹配其工作负载的硬件,可以为一个运营团队节省可观的成本,因此,需要精心的策划和慎重的选择。

搭建hadoop集群,常用配置文件是什么,以及配置哪些属性

一. 简介

参考了网上许多教程,最终把hadoop在ubuntu14.04中安装配置成功。下面就把详细的安装步骤叙述一下。我所使用的环境:两台ubuntu 14.04 64位的台式机,hadoop选择2.7.1版本。(前边主要介绍单机版的配置,集群版是在单机版的基础上,主要是配置文件有所不同,后边会有详细说明)

二. 准备工作

2.1 创建用户

创建用户,并为其添加root权限,经过亲自验证下面这种方法比较好。

1 sudo adduser hadoop2 sudo vim /etc/sudoers3 # 修改内容如下:4 root ALL = (ALL)ALL5 hadoop ALL = (ALL)ALL

给hadoop用户创建目录,并添加到sudo用户组中,命令如下:

1 sudo chown hadoop /home/hadoop2 # 添加到sudo用户组3 sudo adduser hadoop sudo

最后注销当前用户,使用新创建的hadoop用户登陆。

2.2 安装ssh服务

ubuntu中默认是没有装ssh server的(只有ssh client),所以先运行以下命令安装openssh-server。安装过程轻松加愉快~

sudo apt-get install ssh openssh-server

2.3 配置ssh无密码登陆

直接上代码:执行完下边的代码就可以直接登陆了(可以运行ssh localhost进行验证)

1 cd ~/.ssh  # 如果找不到这个文件夹,先执行一下 “ssh localhost“2 ssh-keygen -t rsa3 cp id_rsa.pub authorized_keys

注意:

这里实现的是无密登陆自己,只适用与hadoop单机环境。如果配置Hadoop集群设置Master与Slave的SSH无密登陆可

三. 安装过程

3.1 下载hadoop安装包

有两种下载方式:

1. 直接去官网下载:

2. 使用wget命令下载:

3.2 配置hadoop

1. 解压下载的hadoop安装包,并修改配置文件。我的解压目录是(/home/hadoop/hadoop-2.7.1),即进入/home/hadoop/文件夹下执行下面的解压缩命令。

tar -zxvf hadoop-2.7.1.tar.gz

2. 修改配置文件:(hadoop2.7.1/etc/hadoop/)目录下,hadoop-env.sh,core-site.xml,mapred-site.xml.template,hdfs-site.xml。

(1). core-site.xml 配置:其中的hadoop.tmp.dir的路径可以根据自己的习惯进行设置。

《configuration》《property》《name》hadoop.tmp.dir《/name》《value》file:/home/hadoop/hadoop/tmp《/value》《description》Abase for other temporary directories.《/description》《/property》《property》《name》fs.defaultFS《/name》《value》hdfs://localhost:9000《/value》《/property》《/configuration》

(2). mapred-site.xml.template配置: 

《configuration》《property》《name》mapred.job.tracker《/name》《value》localhost:9001《/value》《/property》《/configuration》

(3). hdfs-site.xml配置: 其中dfs.namenode.name.dir和dfs.datanode.data.dir的路径可以自由设置,最好在hadoop.tmp.dir的目录下面。

注意:如果运行Hadoop的时候发现找不到jdk,可以直接将jdk的路径放置在hadoop-env.sh里面,具体如下:

export JAVA_HOME=“/opt/java_file/jdk1.7.0_79“,即安装java时的路径。

《configuration》《property》《name》dfs.replication《/name》《value》1《/value》《/property》《property》《name》dfs.namenode.name.dir《/name》《value》file:/home/hadoop/hadoop/tmp/dfs/name《/value》《/property》《property》《name》dfs.datanode.data.dir《/name》《value》file:/home/hadoop/hadoop/tmp/dfs/data《/value》《/property》《/configuration》

配置完成后运行hadoop。

四. 运行hadoop

4.1 初始化HDFS系统

在hadop2.7.1目录下执行命令:

bin/hdfs namenode -format

出现如下结果说明初始化成功。

4.2 开启 NameNode 和 DataNode 守护进程

在hadop2.7.1目录下执行命令:

sbin/start-dfs.sh

成功的截图如下:

4.3 使用jps命令查看进程信息:

若出现如图所示结果,则说明DataNode和NameNode都已经开启。

4.4 查看web界面

在浏览器中输入