hadoop分布式集群搭建（搭建hadoop集群，常用配置文件是什么，以及配置哪些属性）

大家好，如果您还对hadoop分布式集群搭建不太了解，没有关系，今天就由本站为大家分享hadoop分布式集群搭建的知识，包括搭建hadoop集群，常用配置文件是什么，以及配置哪些属性的问题都会给大家分析到，还望可以解决大家的问题，下面我们就开始吧！

本文目录

搭建hadoop集群，常用配置文件是什么，以及配置哪些属性
基于docker搭建hadoop跨主机集群
Flink1.8 集群搭建完全指南(1)：Hadoop伪分布式
搭建全分布式集群的原理是什么
hadoop集群搭建（Hadoop 3.1.3 /Hive 3.1.2/Spark 3.0.0）
vmware16可以搭建hadoop集群吗
如何部署完全分布式hadoop

搭建hadoop集群，常用配置文件是什么，以及配置哪些属性

一. 简介

参考了网上许多教程，最终把hadoop在ubuntu14.04中安装配置成功。下面就把详细的安装步骤叙述一下。我所使用的环境：两台ubuntu 14.04 64位的台式机，hadoop选择2.7.1版本。（前边主要介绍单机版的配置，集群版是在单机版的基础上，主要是配置文件有所不同，后边会有详细说明）

二. 准备工作

2.1 创建用户

创建用户，并为其添加root权限，经过亲自验证下面这种方法比较好。

1 sudo adduser hadoop2 sudo vim /etc/sudoers3 # 修改内容如下：4 root ALL = (ALL)ALL5 hadoop ALL = (ALL)ALL

给hadoop用户创建目录，并添加到sudo用户组中，命令如下：

1 sudo chown hadoop /home/hadoop2 # 添加到sudo用户组3 sudo adduser hadoop sudo

最后注销当前用户，使用新创建的hadoop用户登陆。

2.2 安装ssh服务

ubuntu中默认是没有装ssh server的（只有ssh client），所以先运行以下命令安装openssh-server。安装过程轻松加愉快～

sudo apt-get install ssh openssh-server

2.3 配置ssh无密码登陆

直接上代码：执行完下边的代码就可以直接登陆了（可以运行ssh localhost进行验证）

1 cd ~/.ssh　　# 如果找不到这个文件夹，先执行一下 "ssh localhost"2 ssh-keygen -t rsa3 cp id_rsa.pub authorized_keys

注意：

这里实现的是无密登陆自己，只适用与hadoop单机环境。如果配置Hadoop集群设置Master与Slave的SSH无密登陆可

三. 安装过程

3.1 下载hadoop安装包

有两种下载方式：

1. 直接去官网下载：

2. 使用wget命令下载：

3.2 配置hadoop

1. 解压下载的hadoop安装包，并修改配置文件。我的解压目录是（/home/hadoop/hadoop-2.7.1），即进入/home/hadoop/文件夹下执行下面的解压缩命令。

tar -zxvf hadoop-2.7.1.tar.gz

2. 修改配置文件：（hadoop2.7.1/etc/hadoop/）目录下，hadoop-env.sh，core-site.xml，mapred-site.xml.template，hdfs-site.xml。

(1). core-site.xml 配置：其中的hadoop.tmp.dir的路径可以根据自己的习惯进行设置。

《configuration》《property》《name》hadoop.tmp.dir《/name》《value》file:/home/hadoop/hadoop/tmp《/value》《description》Abase for other temporary directories.《/description》《/property》《property》《name》fs.defaultFS《/name》《value》hdfs://localhost:9000《/value》《/property》《/configuration》

(2). mapred-site.xml.template配置:

《configuration》《property》《name》mapred.job.tracker《/name》《value》localhost:9001《/value》《/property》《/configuration》

(3). hdfs-site.xml配置: 其中dfs.namenode.name.dir和dfs.datanode.data.dir的路径可以自由设置，最好在hadoop.tmp.dir的目录下面。

注意：如果运行Hadoop的时候发现找不到jdk，可以直接将jdk的路径放置在hadoop-env.sh里面，具体如下：

export JAVA_HOME="/opt/java_file/jdk1.7.0_79"，即安装java时的路径。

《configuration》《property》《name》dfs.replication《/name》《value》1《/value》《/property》《property》《name》dfs.namenode.name.dir《/name》《value》file:/home/hadoop/hadoop/tmp/dfs/name《/value》《/property》《property》《name》dfs.datanode.data.dir《/name》《value》file:/home/hadoop/hadoop/tmp/dfs/data《/value》《/property》《/configuration》

配置完成后运行hadoop。

四. 运行hadoop

4.1 初始化HDFS系统

在hadop2.7.1目录下执行命令：

bin/hdfs namenode -format

出现如下结果说明初始化成功。

4.2 开启 NameNode 和 DataNode 守护进程

在hadop2.7.1目录下执行命令：

sbin/start-dfs.sh

成功的截图如下：

4.3 使用jps命令查看进程信息：

若出现如图所示结果，则说明DataNode和NameNode都已经开启。

4.4 查看web界面

***隐藏网址***

至此，hadoop的环境就已经搭建好了。

五. 运行wordcount demo

1. 在本地新建一个文件，里面内容随便填：例如我在home/hadoop目录下新建了一个haha.txt文件，里面的内容为" hello world! "。

2. 然后在分布式文件系统（hdfs）中新建一个test文件夹，用于上传我们的测试文件haha.txt。在hadoop-2.7.1目录下运行命令：

# 在hdfs的根目录下建立了一个test目录bin/hdfs dfs -mkdir /test# 查看HDFS根目录下的目录结构bin/hdfs dfs -ls /

结果如下：

3. 将本地haha.txt文件上传到test目录中；

# 上传bin/hdfs dfs -put /home/hadoop/haha.txt /test/# 查看bin/hdfs dfs -ls /test/

结果如下：

4. 运行wordcount demo；

# 将运行结果保存在/test/out目录下bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /test/haha.txt /test/out# 查看/test/out目录下的文件bin/hdfs dfs -ls /test/out

结果如下：

运行结果表示：运行成功，结果保存在part-r-00000中。

5. 查看运行结果；

# 查看part-r-00000中的运行结果bin/hadoop fs -cat /test/out/part-r-00000

结果如下：

至此，wordcount demo 运行结束。

六. 总结

配置过程遇到了很多问题，最后都一一解决，收获很多，特此把这次配置的经验分享出来，方便想要配置hadoop环境的各位朋友～

（Hadoop集群安装配置过程基本和单机版是一样的，主要是在配置文件方面有所区别，以及ssh无密登陆要求master和slave能够互相无密登陆。

基于docker搭建hadoop跨主机集群

摘要：本文是基于docker 17.09.0搭建的hadoop 2.7.2 分布式跨主机集群，集群规模为一个master和两个salve，一共使用三台物理主机（两台或者多台物理机均可模拟），集群网络使用的是docker swarm搭建。

备注：中文社区中相关资料极少，相关资料请直接翻阅官方文档

运行之后会有如下信息提示

进入slave1中，运行如下命令：

同样进入slave2中，运行相同命令

这样，节点slave1 slave2就加入了master的swarm网络了。其中运行的命令即为第二步中创建完网络提示的信息。

观察上一步我们发现， hadoop-master容器启动在master主机上。我们进入到master。

自此，使用docker的跨主机的hadoop集群搭建完成。

问题描述：笔者在搭建过程中碰到了这个问题，docker容器hadoop-master和hadoop-slave1,hadoop-slave2在一个swarm网络中，能够互相ping通，但是在ssh登录的时候出现 connection time out 异常，等了很久最后连接超时，也没有报其他问题。笔者在碰到这个问题的时候，找到的原因是物理主机slave1,slave2的防火墙没有关，直接截拦了对容器内部的ssh访问。

解决方案：

Flink1.8 集群搭建完全指南(1)：Hadoop伪分布式

Flink是目前在国内非常流行的大数据的计算框架，其设计理念可以完美的实现数据的批流计算一体化。Flink的集群，如果要使用到JobManager的HA，以及Yarn的资源调度的话，整体的部署过程还是比较复杂的。本系列文章将完整介绍Hadoop，Kerberos，SASL，Yarn，以及Flink集群的搭建过程，一步步完成整个系统环境的部署。 Hadoop的HDFS在Flink中用作JobManager的HA，Yarn可以用于Flink任务的资源调度，因此是必不可少的。下面我们先搭建好一个Hadoop的集群。对于一些不熟悉Hadoop集群的搭建的同学，我们先来看下伪分布式集群的搭建，可以快速的熟悉简化的配置过程，以及Hadoop的各配置文件等。以下是我用于部署该服务的机器：在伪分布式集群中，所有的服务都在同一节点启动，但它们之间也同样通过ssh的方式访问，所以需要配置ssh免密码登录，配置的方式如下：测试以下命令，成功跳转即可：在集群搭建完成后，可以运行Hadoop的示例任务，检查集群是否能够正常工作，命令如下：该程序会打印PI的值，则执行成功。在Yarn的Web页面，可以看到有一个成功的Application。下一节我们会介绍Hadoop的分布式集群，Kerberos和SASL等的部署。

搭建全分布式集群的原理是什么

全分布式集群是指将系统的计算和存储资源分散到多台服务器上，通过网络互相连接，形成一个高可用、高可靠、高性能的分布式计算环境。搭建全分布式集群可以提高系统的计算能力、数据处理能力和容错能力。实现全分布式集群需要遵循以下原则：1. 水平扩展：将系统的计算和存储资源分散到多个节点上，可以根据业务需求按需增加或减少节点，从而方便地扩展系统的性能和容量。2. 节点均衡：每个节点都应该具有相同的硬件配置和软件环境，以保证节点之间的任务分配均衡，并且方便进行故障转移和负载均衡。3. 数据一致性：在分布式环境下，数据的一致性是非常重要的。为了保证数据的一致性，需要采用合适的同步机制，如数据复制、数据分片等。4. 故障容错：从节点故障恢复和任务重试等方面提供容错功能，使得系统可以在节点故障的情况下继续工作。5. 高性能通信：使用高速网络通信协议，如Infiniband、RDMA等，保证节点间的通信速度和吞吐量。搭建全分布式集群需要使用一些分布式系统的基础组件，如分布式文件系统、分布式数据库、分布式缓存、分布式任务调度等，并且需要根据实际业务需求进行选择和调整。常用的分布式平台包括Hadoop、Spark、HBase、Cassandra等。同时，为了更好地管理和监控集群，还需要使用一些集群管理工具，如Zookeeper、Ambari等。

hadoop集群搭建（Hadoop 3.1.3 /Hive 3.1.2/Spark 3.0.0）

完全分布式HA 服务器规划技术栈包含 hdfs hive on spark presto doris superset azkaban kafka fluent\flume sqoop\kettle\flink-cdc atlas 禁用swap/selinux 修改 IP/修改主机名/及主机名和 IP 地址的映射时间同步/设置时区/自动时间同步关闭防火墙关闭SELINUX 新建用户免密登录（先升级openssh）发送密钥（dw01上执行）授权 Tencent Kona v8.0.8-GA 腾讯开源的konaJDK，针对大数据场景下优化解压并重命名至安装地址：/usr/local/java/ zookeeper-3.5.9 解压并重命名至安装地址：/usr/local/zookeeper apache-hadoop-3.1.3 解压至安装地址：/usr/local/hadoop 修改环境变量 /usr/local/zookeeper/conf 启动zookeeper集群（每台执行）三台服务器启动格式化namenode（dw01执行）启动namenode(dw01上执行) 在上分别执行，同步 nn1 的元数据信息启动nn2 nn3，分别执行所有节点上启动datanode 将切换为 Active 查看状态配置yarn-site.xml 配置mapred-site.xml 分发配置文件，启动yarn(dw03 启动) dw03节点 dw01节点 dw01执行 dw03执行测试样例启动脚本 HA切换namenode手动修改yarn显示log的bug

vmware16可以搭建hadoop集群吗

可以。Hadoop集群可以定义为一种特殊类型的计算集群，旨在用于分布式计算环境中存储和分析大量非结构化数据。vmware16可以搭建hadoop集群。vmwareworkstation16是一款功能强大的电脑虚拟机软件，它可以帮助用户轻松的将一个或多个操作系统，它作为虚拟机运行，是一款能够在一台PC上同时运行多个不同的操作系统的软件。

如何部署完全分布式hadoop

安装流程

我们先来回顾上一篇我们完成的单节点的Hadoop环境配置，已经配置了一个CentOS 6.8 并且完成了java运行环境的搭建，Hosts文件的配置、计算机名等诸多细节。

其实完成这一步之后我们就已经完成了Hadoop集群的搭建的一半的工作了，因为我们知道通过虚拟机搭建所搭建的好处就是直接拷贝机器。多台同步进行操作，减少分别配置的时间消耗浪费。这也是虚拟化技术所带来的优势。

下面，咱们进去分布式系统的详细操作过程。

1、首先需要在VMWare中将之前创建的单实例的计算机进行拷贝。

这里根据之前第一篇文章的规划，我们至少需要再克隆出三台计算机，作为DataNode数据节点的数据存储。之前的上一台机器作为Master主节点进行管理。

这里先来梳理一下整个Hadoop集群的物理架构图，大家有一个直接的观念和认识，上表中已经和明确了，总共需要5台服务器来使用，四台用来搭建Hadoop集群使用，另外一台（可选）作为MySQL等外围管理Hadoop集群来使用。

关于本次hadoop分布式集群搭建和搭建hadoop集群，常用配置文件是什么，以及配置哪些属性的问题分享到这里就结束了，如果解决了您的问题，我们非常高兴。

星码园

分享网站建设技术、IT技术等网络应用技术

hadoop分布式集群搭建 had

hadoop分布式集群搭建（搭建hadoop集群，常用配置文件是什么，以及配置哪些属性）

admin 发表于2023-12-27 12:57:35 浏览37 评论0

本文目录

搭建hadoop集群，常用配置文件是什么，以及配置哪些属性

基于docker搭建hadoop跨主机集群

Flink1.8 集群搭建完全指南(1)：Hadoop伪分布式

搭建全分布式集群的原理是什么

hadoop集群搭建（Hadoop 3.1.3 /Hive 3.1.2/Spark 3.0.0）

vmware16可以搭建hadoop集群吗

如何部署完全分布式hadoop

少长咸集