hadoopa安装
- 格式:pdf
- 大小:256.80 KB
- 文档页数:10
简单梳理Hadoop安装流程
今儿个咱们来简单梳理下Hadoop的安装流程,让各位在四川的兄弟姐妹也能轻松上手。
首先,你得有个Linux系统,比如说CentOS或者Ubuntu,这点很重要。
然后在系统上整个Java环境,Hadoop 是依赖Java运行的。
把JDK下载安装好后,记得配置下环境变量,就是修改`/etc/profile`文件,把Java的安装路径加进去。
接下来,你需要在系统上整个SSH服务,Hadoop集群内部的通信要用到。
安好SSH后,记得配置下无密钥登录,省得每次登录都要输密码,多麻烦。
Hadoop的安装包可以通过官方渠道下载,也可以在网上找现成的。
下载好安装包后,解压到你的安装目录。
然后就开始配置Hadoop的环境变量,跟配置Java环境变量一样,也是在
`/etc/profile`文件里加路径。
配置Hadoop的文件是重点,都在Hadoop安装目录下的`etc/hadoop`文件夹里。
有`hadoop-env.sh`、`core-site.xml`、`hdfs-site.xml`这些文件需要修改。
比如`core-site.xml`里要设置HDFS的地址和端口,`hdfs-site.xml`里要设置临时目录这些。
最后,就可以开始格式化HDFS了,用`hdfs namenode-format`命令。
然后启动Hadoop,用`start-all.sh`脚本。
如果一
切配置正确,你就可以用`jps`命令看到Hadoop的各个进程在运行了。
这整个过程看似复杂,但只要你跟着步骤来,注意配置文件的路径和内容,相信你也能轻松搞定Hadoop的安装。
Hadoop集群安装详细步骤亲测有效第一步:准备硬件环境- 64位操作系统,可以是Linux或者Windows-4核或更高的CPU-8GB或更高的内存-100GB或更大的硬盘空间第二步:准备软件环境- JDK安装:Hadoop运行需要Java环境,所以我们需要先安装JDK。
- SSH配置:在主节点和从节点之间建立SSH连接是Hadoop集群正常运行的前提条件,所以我们需要在主节点上生成SSH密钥,并将公钥分发到从节点上。
第四步:配置Hadoop- core-site.xml:配置Hadoop的核心参数,包括文件系统的默认URI和临时目录等。
例如,可以将`hadoop.tmp.dir`设置为`/tmp/hadoop`。
- hdfs-site.xml:配置Hadoop分布式文件系统的参数,包括副本数量和块大小等。
例如,可以将副本数量设置为`3`。
- yarn-site.xml:配置Hadoop的资源管理系统(YARN)的参数。
例如,可以设置YARN的内存资源分配方式为容器的最大和最小内存均为1GB。
- mapred-site.xml:配置Hadoop的MapReduce框架的参数。
例如,可以设置每个任务容器的内存限制为2GB。
第五步:格式化Hadoop分布式文件系统在主节点上执行以下命令,格式化HDFS文件系统:```hadoop namenode -format```第六步:启动Hadoop集群在主节点上执行以下命令来启动Hadoop集群:```start-all.sh```此命令将启动Hadoop的各个组件,包括NameNode、DataNode、ResourceManager和NodeManager。
第七步:测试Hadoop集群可以使用`jps`命令检查Hadoop的各个进程是否正常运行,例如`NameNode`、`DataNode`、`ResourceManager`和`NodeManager`等进程都应该在运行中。
Hadoop集群安装详细步骤|Hadoop安装配置文章分类:综合技术Hadoop集群安装首先我们统一一下定义,在这里所提到的Hadoop是指Hadoop Common,主要提供DFS(分布式文件存储)与Map/Reduce的核心功能。
Hadoop在windows下还未经过很好的测试,所以笔者推荐大家在linux(cent os 5.X)下安装使用。
准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件:ssh、rsync和Jdk1.6(因为Hadoop需要使用到Jdk中的编译工具,所以一般不直接使用Jre)。
可以使用yum install rsync来安装rsync。
一般来说ssh是默认安装到系统中的。
Jdk1.6的安装方法这里就不多介绍了。
确保以上准备工作完了之后我们就开始安装Hadoop软件,假设我们用三台机器做Hadoop集群,分别是:192.168.1.111、192.168.1.112和192.168.1.113(下文简称111,112和113),且都使用root用户。
下面是在linux平台下安装Hadoop的过程:在所有服务器的同一路径下都进行这几步,就完成了集群Hadoop软件的安装,是不是很简单?没错安装是很简单的,下面就是比较困难的工作了。
集群配置根据Hadoop文档的描述“The Hadoop daemons are N ameNode/DataNode and JobTracker/TaskTracker.”可以看出Hadoop核心守护程序就是由NameNode/DataNode 和JobTracker/TaskTracker这几个角色构成。
Hadoop的DFS需要确立NameNode与DataNode角色,一般NameNode会部署到一台单独的服务器上而不与DataNode共同同一机器。
另外Map/Reduce服务也需要确立JobTracker和TaskTracker的角色,一般JobTracker与NameNode共用一台机器作为master,而TaskTracker与DataNode同属于slave。
hadoop安装流程简单描述英文回答:Hadoop is an open-source software framework for distributed storage and processing of large datasets. It is designed to scale from single servers to thousands of machines, each offering local computation and storage. Here is a simple description of the installation process for Hadoop.Step 1: System Requirements.Before installing Hadoop, make sure your system meets the minimum requirements. Hadoop runs on Java, so you needto have Java Development Kit (JDK) installed on your system. Additionally, you will need a Unix-based system such as Linux or macOS.Step 2: Download Hadoop.Go to the official Apache Hadoop website and download the latest stable release of Hadoop. Choose the versionthat is compatible with your system and download the binary distribution.Step 3: Configure Environment Variables.After downloading Hadoop, set the environment variables in your system. This includes setting the JAVA_HOMEvariable to the location where JDK is installed and adding the Hadoop bin directory to the PATH variable.Step 4: Configure Hadoop.Next, you need to configure Hadoop by editing the configuration files. The core-site.xml, hdfs-site.xml, and mapred-site.xml files need to be configured to specify the Hadoop cluster settings, such as the file system and job tracker.Step 5: Start Hadoop Services.Once the configuration is done, you can start the Hadoop services. This includes starting the Hadoop Distributed File System (HDFS) and the Yet Another Resource Negotiator (YARN) services using the start-dfs.sh andstart-yarn.sh scripts respectively.Step 6: Verify Installation.To verify that Hadoop is installed and running correctly, you can run some sample commands such as creating a directory in HDFS, uploading a file, and running a MapReduce job.Step 7: Additional Configurations.Depending on your specific requirements, you may need to make additional configurations such as setting up security, adding nodes to the cluster, or tuning the performance settings.That's a simple overview of the Hadoop installation process. With these steps completed, you should have abasic Hadoop setup ready for storing and processing large datasets.中文回答:Hadoop是一个用于分布式存储和处理大型数据集的开源软件框架。
hadoop集群安装配置的主要操作步骤-概述说明以及解释1.引言1.1 概述Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据集。
它提供了高度可靠性、容错性和可扩展性的特性,因此被广泛应用于大数据处理领域。
本文旨在介绍Hadoop集群安装配置的主要操作步骤。
在开始具体的操作步骤之前,我们先对Hadoop集群的概念进行简要说明。
Hadoop集群由一组互联的计算机节点组成,其中包含了主节点和多个从节点。
主节点负责调度任务并管理整个集群的资源分配,而从节点则负责实际的数据存储和计算任务执行。
这种分布式的架构使得Hadoop可以高效地处理大规模数据,并实现数据的并行计算。
为了搭建一个Hadoop集群,我们需要进行一系列的安装和配置操作。
主要的操作步骤包括以下几个方面:1. 硬件准备:在开始之前,需要确保所有的计算机节点都满足Hadoop的硬件要求,并配置好网络连接。
2. 软件安装:首先,我们需要下载Hadoop的安装包,并解压到指定的目录。
然后,我们需要安装Java开发环境,因为Hadoop是基于Java 开发的。
3. 配置主节点:在主节点上,我们需要编辑Hadoop的配置文件,包括核心配置文件、HDFS配置文件和YARN配置文件等。
这些配置文件会影响到集群的整体运行方式和资源分配策略。
4. 配置从节点:与配置主节点类似,我们也需要在每个从节点上进行相应的配置。
从节点的配置主要包括核心配置和数据节点配置。
5. 启动集群:在所有节点的配置完成后,我们可以通过启动Hadoop 集群来进行测试和验证。
启动过程中,我们需要确保各个节点之间的通信正常,并且集群的各个组件都能够正常启动和工作。
通过完成以上这些操作步骤,我们就可以成功搭建一个Hadoop集群,并开始进行大数据的处理和分析工作了。
当然,在实际应用中,还会存在更多的细节和需要注意的地方,我们需要根据具体的场景和需求进行相应的调整和扩展。
Hadoop详细安装过程一、本文思路1、安装虚拟化PC工具VMware,用于支撑Linux系统。
2、在VMware上安装Ubuntu系统。
3、安装Hadoop前的准备工作:安装JDK和SSH服务。
4、配置Hadoop。
5、为了方便开发过程,需安装eclipse。
6、运行一个简单的Hadoop程序:WordCount.java注:在win7系统上,利用虚拟工具VMware建立若干个Linux系统,每个系统为一个节点,构建Hadoop集群。
先在一个虚拟机上将所有需要配置的东西全部完成,然后再利用VMware 的克隆功能,直接生成其他虚拟机,这样做的目的是简单。
二、所需软件1、VMware:VMware Workstation,直接百度下载(在百度软件中心下载即可)。
2、Ubuntu系统:ubuntu-15.04-desktop-amd64.iso,百度网盘:/s/1qWxfxso注:使用15.04版本的Ubuntu(其他版本也可以),是64位系统。
3、jdk:jdk-8u60-linux-x64.tar.gz,网址:/technetwork/java/javase/downloads/jdk8-downloads-2133151.html注:下载64位的Linux版本的jdk。
4、Hadoop:hadoop-1.2.1-bin.tar.gz,网址:/apache/hadoop/common/hadoop-1.2.1/注:选择1.2.1版本的Hadoop。
5、eclipse:eclipse-java-mars-1-linux-gtk-x86_64.tar.gz,网址:/downloads/?osType=linux注:要选择Linux版本的,64位,如下:6、hadoop-eclipse-plugin-1.2.1.jar,这是eclipse的一个插件,用于Hadoop的开发,直接百度下载即可。
三、安装过程1、安装VMware。
hadoop安装以及配置启动命令本次安装使⽤的Hadoop⽂件是badou学院的Hadoop1.2.1.tar.gz,以下步骤都是在此版本上进⾏。
1、安装,通过下载tar.gz⽂件安装到指定⽬录2、安装好后需要配置Hadoop集群配置信息: 在hadoop的conf路径中的masters中添加master(集群机器主的hostname)在slaves中添加集群的slave的hostname名称名称对应的是各⾃机器的hostname这样通过hosts⽂件中配置的域名地址映射可以直接找到对应的机器 a、core-site.xml 在xml⽂件中添加<property><name>hadoop.tmp.dir</name><value>/usr/local/src/hadoop.1.2.1/tmp</value></property> <property><name></name><value>hdfs://192.168.79.10:9000</value></property> c、hdfs-site.xml 在⽂件中添加<property><name>dfs.replication</name><value>3</value></property><!-- 复制节点数 --> d、hadoop-env.xml 在⽂件中添加export JAVA_HOME=/usr/local/src/jdk1.6.0_45 步骤2配置好后将当前hadoop⽂件夹复制到集群中其他机器上,只需要在对应机器上修改其对应的ip、port、jdk路径等信息即可搭建集群3、配置好Hadoop环境后需要测试环境是否可⽤: a、⾸先进⼊Hadoop的安装⽬录,进⼊bin⽬录下,先将Hadoop环境初始化,命令:./hadoop namenode -format b、初始化之后启动Hadoop,命令:./start_all.sh c、查看Hadoop根⽬录下的⽂件,命令:./hadoop fs -ls/ d、上传⽂件,命令:./hadoop fs -put ⽂件路径 e、查看⽂件内容,命令:./hadoopo fs -cat hadoop⽂件地址注意:在安装Hadoop环境时先安装好机器集群,使得⾄少3台以上(含3台)机器之间可以免密互相登录(可以查看上⼀篇的linux的ssh免密登录)执⾏Python⽂件时的部分配置/usr/local/src/hadoop-1.2.1/bin/hadoop/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar。
简述hadoop安装步骤简述hadoop安装步骤安装步骤:1、安装虚拟机系统,并进⾏准备⼯作(可安装- ⼀个然后克隆)2.修改各个虚拟机的hostname和host3.创建⽤户组和⽤户4、配置虚拟机⽹络,使虚拟机系统之间以及和host主机之间可以通过相互ping通。
5.安装jdk和配置环境变量,检查是否配置成功6、配置ssh,实现节点间的⽆密码登录ssh node1/2指令验证时候成功7、master 配置hadoop,并将hadoop⽂件传输到node节点8、配置环境变量,并启动hadoop, 检查是否安装成功,执⾏wordcount检查是否成功。
⼆.HDFS作⽤是什么Hadoop分布式⽂件系统(HDFS)是指被设计成适合运⾏在通⽤硬件(commodity hardware)上的分布式⽂件系统(Distributed File System)。
它和现有的分布式⽂件系统有很多共同点。
但同时,它和其他的分布式⽂件系统的区别也是很明显的。
HDFS是⼀个⾼度容错性的系统,适合部署在廉价的机器上。
HDFS能提供⾼吞吐量的数据访问,⾮常适合⼤规模数据集上的应⽤。
HDFS放宽了⼀部分POSIX约束,来实现流式读取⽂件系统数据的⽬的。
HDFS在最开始是作为Apache Nutch搜索引擎项⽬的基础架构⽽开发的。
HDFS是Apache Hadoop Core项⽬的⼀部分。
HDFS有着⾼容错性(fault-tolerant)的特点,并且设计⽤来部署在低廉的(low-cost)硬件上。
⽽且它提供⾼吞吐量(high throughput)来访问应⽤程序的数据,适合那些有着超⼤数据集(large data set)的应⽤程序。
HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)⽂件系统中的数据。
三.常⽤的Hadoop FS Shell命令有哪些及其作⽤1.调⽤Hadoop的⽂件系统Shell(FileSystem Shell)的命令格式:语法:hadoop fs <args>:前提是位置位于hadoop/bin下,其中fs是参数,表⽰FS Shell,<args>是fs的⼦命令2.使⽤FS Shell命令⾏管理⽂件:mkdir -创建⽬录语法:hadoop fs -mkdir <paths>例⼦:hadoop fs -mkdir /user:在HDFS中创建"/user"⽬录hadoop fs -mkdir /user/hadoop:在HDFS中创建"/user/hadoop"⽬录hadoop fs -mkdir /user/hadoop/dir1 /user/hadoop/dir2:在HDFS中同时创建"/user/hadoop/dir1"和"/user/hadoop/dir2",⽬录ls -查看列表⽂件语法:hadoop fs -ls <args>如果是⽂件,则按照如下格式返回⽂件信息:⽂件名<副本数> ⽂件⼤⼩修改⽇期修改时间权限⽤户ID 组ID如果是⽬录,则返回它直接⼦⽂件的⼀个列表cat -查看⽂件语法:hadoop fs -cat URI <URI...>:输出路径指定⽂件的内容例⼦:hadoop fs -cat /input2/file1.txt /input2/file2.txt:在HDFS中查看input2⽬录下的file1.txt和file2.txt的⽂件内容put -从本地⽂件系统中复制⼀个或多个⽂件到HDFS(外部命令)语法:hadoop fs -put <localsrc>...<dst>其中localsrc只能是本地⽂件,dst只能是HDFS⽂件,且不受fs.defaultFS属性影响。
hadoop安装步骤1.准备Linux环境1.0先将虚拟机的⽹络模式选为NAT1.1修改主机名 hostnamectl set-hostname server11.2修改IP 修改配置⽂件⽅式(修改的是⽹卡信息 ip a 查看⽹卡),第⼀次启动时没有ip的,需要将⽹卡配置之中 ONBOOT=yes, 然后重启⽹络vim /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE="eth0"BOOTPROTO="static"###HWADDR="00:0C:29:3C:BF:E7"IPV6INIT="yes"NM_CONTROLLED="yes"ONBOOT="yes"TYPE="Ethernet"UUID="ce22eeca-ecde-4536-8cc2-ef0dc36d4a8c"IPADDR="192.168.1.101"###NETMASK="255.255.255.0"###GATEWAY="192.168.1.1"###1.3修改主机名和IP的映射关系(每台机器都要有)192.168.33.101 server1192.168.33.102 server2192.168.33.103 server31.4关闭防⽕墙#查看防⽕墙状态service iptables status#关闭防⽕墙service iptables stop#查看防⽕墙开机启动状态chkconfig iptables --list#关闭防⽕墙开机启动chkconfig iptables off1.5 关闭linux服务器的图形界⾯:vi /etc/inittab1.6重启Linuxreboot2.安装JDK#创建⽂件夹mkdir /home/hadoop/app#解压tar -zxvf jdk-7u55-linux-i586.tar.gz -C /home/hadoop/app2.3将java添加到环境变量中(如果在 .bashrc 之中配置了java环境变量,hadoop 是不需要指定 JAVA_HOME,如果在 /etc/profile 需要指定,因为 ssh 默认不会加载 /et/profile) vim ~/.bashrc#在⽂件最后添加export JAVA_HOME=/home/hadoop/app/jdk-7u_65-i585export PATH=$PATH:$JAVA_HOME/bin#刷新配置source ~/.bashrc3.安装hadoop2.4.1(要保证以下⽂件都有读写权限)先上传hadoop的安装包到服务器上去/home/hadoop/分布式需要修改5个配置⽂件3.1配置hadoopvim hadoop-env.shexport JAVA_HOME=/home/hadoop/app/jdk-7u_65-i585第⼆个:core-site.xml<!-- 指定HADOOP所使⽤的⽂件系统schema(URI),HDFS的⽼⼤(NameNode)的地址 --><property><name>fs.defaultFS</name><value>hdfs://server1:9000</value><!--hadoop 的默认⽤户--><property><name>er</name><value>master</value></property><!--datanode.data.dir 存储⽂件⽬录, .dir 元数据,namenode.edits.dir ⽇志⽬录三者都依赖于此⽬录--> <property><name>hadoop.tmp.dir</name><value>/opt/modules/hadoop-2.7.0/data/tmp</value></property>第三个:hdfs-site.xml<!--其他⽤户使⽤hdfs 操作⽂件,是否进⾏验证!--><property><name>dfs.permissions</name><value>false</value></property>第四个:mapred-site.xml (mv mapred-site.xml.template mapred-site.xml)<property><name></name><value>yarn</value></property><!--⽇志页⾯的显⽰ ip:port--><property><name>mapreduce.jobhistory.address</name><value>sserver1:10020</value></property><!--运⾏ yarn 任务跳转的页⾯--><property><name>mapreduce.jobhistory.webapp.address</name><value>server1:19888</value></property>第五个:yarn-site.xml<property><name>yarn.resourcemanager.hostname</name><value>server1</value></property><!-- reducer获取数据的⽅式,⼀种辅助 --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!--开启⽇志聚集--><property><name>yarn.log-aggregation-enable</name><value>true</value></property><!--⽇志存放的时间(s)--><property><name>yarn.log-aggregation.retain-seconds</name><value>100000</value></property>第六个 salves(代表着 DataNode个数, 在sbin/slaves 之中 ssh 遍历连接)server1server2server33.2将hadoop添加到环境变量vim /etc/proflieexport JAVA_HOME=/usr/java/jdk1.7.0_65export HADOOP_HOME=/master/hadoop-2.4.1export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbinsource /etc/profile3.3 将 app ⽂件夹配置到其他的节点之上(节点信息与master配置信息是⼀样的)scp -r app/ hdp-node-01:/home/slave3.4 格式化namenode(是对namenode进⾏初始化)hdfs namenode -format (hadoop namenode -format)3.5启动hadoop先启动HDFSsbin/start-dfs.shsbin/start-yarn.sh3.6验证是否启动成功使⽤jps命令验证27408 NameNode28218 Jps27643 SecondaryNameNode28066 NodeManager27803 ResourceManager27512 DataNodehttp://192.168.1.101:50070 (HDFS管理界⾯)http://192.168.1.101:8088 (MR管理界⾯)4.配置ssh免登陆#⽣成ssh免登陆密钥#进⼊到我的home⽬录cd ~ssh-keygen -t rsa #四个回车#执⾏完这个命令后,会⽣成两个⽂件id_rsa(私钥)、id_rsa.pub(公钥)# master ,authorized_keys ⽂件(新⽣成)ssh-copy-id -i ~/.ssh/id_rsa.pub localhost#slave, authorized_keys ⽂件(新⽣成),此处是在 /etc/hosts 写⼊的(集群是相同的⽤户名) ssh-copy-id -i ~/.ssh/id_rsa.pub server15,注:更改⽂件夹权限更改⽂件夹权限# 切换超级权限su# 当前⽂件夹所有的⽤户与组chown -R hadoop:hadoop *。
简单梳理hadoop安装流程Hadoop is an open-source software framework used for storing and processing large datasets on clusters of commodity hardware. Hadoop has gained popularity due to its ability to handle massive amounts of data in a distributed computing environment.Hadoop的一个重要特点是可以在廉价硬件上进行大规模数据的存储和处理,因此广受欢迎。
Before you start installing Hadoop, it is essential to check that your system meets the requirements. You will need a Linux system, as Hadoop is primarily designed to run on Unix-based operating systems. Additionally, you should have Java installed on your system since Hadoop is written in Java.在安装Hadoop之前,需要确保系统符合要求,首先需要一台Linux系统,因为Hadoop主要设计用于运行在基于Unix的操作系统上。
此外,系统还需要安装Java,因为Hadoop是用Java编写的。
The installation process of Hadoop can be quite complex, as it involves setting up various configurations and dependencies. However, there are several resources available online that can guideyou through the installation process step by step. It is crucial to follow these instructions carefully to ensure a successful installation. Hadoop的安装过程可能会相当复杂,因为涉及设置各种配置和依赖关系,但是网上有许多资源可以逐步引导您完成安装过程。
hadoop安装流程Hadoop是一种开源的分布式数据处理框架,它的出现极大地简化了大数据处理的流程,成为了数据科学家们的有力工具。
在使用Hadoop之前,需要先完成其安装,在这里,我们将详细阐述Hadoop的安装流程。
第一步:下载Hadoop。
在Hadoop官网上,可以找到最新的Hadoop版本,选择合适的版本后进行下载。
下载完成后,需要进行解压操作,可以使用命令tar -zxvf xxxx.tar.gz 进行解压,其中xxxx 为Hadoop的安装包名称。
第二步:配置环境变量。
完成解压后,需要设置环境变量。
在bashrc文件中配置,export HADOOP_HOME=/usr/local/hadoopexport PATH=$HADOOP_HOME/bin:$PATHexport CLASSPATH=$HADOOP_HOME/lib/*:$CLASSPATH最后执行命令source ~/.bashrc,让环境变量立刻生效。
第三步:修改配置文件。
进入解压后文件夹中的/etc/hadoop文件夹,将其中的core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml配置文件进行修改。
以core-site.xml为例,需要加入以下内容:<property><name></name><value>hdfs://localhost:9000</value></property>以hdfs-site.xml为例,需要加入以下内容:<property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/hadoop_data/hdfs/namenode</valu e></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/hadoop_data/hdfs/datanode</valu e></property>以mapred-site.xml为例,需要加入以下内容:<property><name></name><value>yarn</value></property>以yarn-site.xml为例,需要加入以下内容:<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>第四步:格式化NameNode。
Hadoop安装配置超详细步骤Hadoop的安装1、实现linux的ssh无密码验证配置.2、修改linux的机器名,并配置/etc/hosts3、在linux下安装jdk,并配好环境变量4、在windows下载hadoop 1.0.1,并修改hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml,masters,slaves文件的配置5、创建一个给hadoop备份的文件。
6、把hadoop的bin加入到环境变量7、修改部分运行文件的权限8、格式化hadoop,启动hadoop注意:这个顺序并不是一个写死的顺序,就得按照这个来。
如果你知道原理,可以打乱顺序来操作,比如1、2、3,先哪个后哪个,都没问题,但是有些步骤还是得依靠一些操作完成了才能进行,新手建议按照顺序来。
一、实现linux的ssh无密码验证配置(1)配置理由和原理Hadoop需要使用SSH协议,namenode将使用SSH协议启动namenode和datanode进程,(datanode向namenode传递心跳信息可能也是使用SSH协议,这是我认为的,还没有做深入了解)。
大概意思是,namenode 和datanode之间发命令是靠ssh来发的,发命令肯定是在运行的时候发,发的时候肯定不希望发一次就弹出个框说:有一台机器连接我,让他连吗。
所以就要求后台namenode和datanode 无障碍的进行通信。
以namenode到datanode为例子:namenode作为客户端,要实现无密码公钥认证,连接到服务端datanode上时,需要在namenode上生成一个密钥对,包括一个公钥和一个私钥,而后将公钥复制到datanode上。
当namenode通过ssh连接datanode时,datanode就会生成一个随机数并用namenode的公钥对随机数进行加密,并发送给namenode。
1.下载并安装安装sshsudo apt-get install openssh-server openssh-client3.搭建vsftpd#sudo apt-get update#sudo apt-get install vsftpd配置参考???????????????????的开始、关闭和重启$sudo /etc/vsftpd start?? #开始$sudo /etc/vsftpd stop??? #关闭$sudo /etc/vsftpd restart?? #重启4.安装sudo chown -R hadoop:hadoop /optcp /soft/ /optsudo vi /etc/profilealias untar='tar -zxvf'sudo source /etc/profilesource /etc/profileuntar jdk*环境变量配置# vi /etc/profile●在profile文件最后加上# set java environmentexport JAVA_HOME=/opt/export CLASSPATH=.:$JAVA_HOME/lib/:$JAVA_HOME/lib/export PATH=$JAVA_HOME/bin:$PATH配置完成后,保存退出。
●不重启,更新命令#source /etc/profile●测试是否安装成功# Java –version?其他问题:出现unable to resolve host 解决方法参考??开机时停在 Starting sendmail 不动了的解决方案参考? 安装软件时出现 E: Unable to locate package vsftpd 参考? vi/vim 使用方法讲解--------------------------------------------克隆master虚拟机至node1 、node2分别修改master的主机名为master、node1的主机名为node1、node2的主机名为node2 (启动node1、node2系统默认分配递增ip,无需手动修改)分别修改/etc/hosts中的ip和主机名(包含其他节点ip和主机名)---------配置ssh免密码连入hadoop@node1:~$ ssh-keygen -t dsa -P ''-f ~/.ssh/id_dsaGenerating public/private dsa key pair.Created directory '/home/hadoop/.ssh'.Your identification has been saved in/home/hadoop/.ssh/id_dsa.Your public key has been saved in/home/hadoop/.ssh/.The key fingerprint is:SHA256:B8vBju/uc3kl/v9lrMqtltttttCcXgRkQPbVoU hadoop@node1The key's randomart image is:+---[DSA 1024]----+|....|| o+.E .||. oo +||..++||o +. o ooo +||=o.. o. ooo. o.||*o....+=o .+++.+|+----[SHA256]-----+hadoop@node1:~$ cd .sshhadoop@node1:~/.ssh$ ll总用量16drwx------ 2 hadoop hadoop 4096 Jul 24 20:31 ./drwxr-xr-x 18 hadoop hadoop 4096 Jul 2420:31../-rw------- 1 hadoop hadoop 668 Jul 24 20:31 id_dsa-rw-r--r-- 1 hadoop hadoop 602 Jul 24 20:31hadoop@node1:~/.ssh$ cat >> authorized_keyshadoop@node1:~/.ssh$ ll总用量20drwx------ 2 hadoop hadoop 4096 Jul 24 20:32 ./drwxr-xr-x 18 hadoop hadoop 4096 Jul 2420:31../-rw-rw-r-- 1 hadoop hadoop 602 Jul 24 20:32 authorized_keys-rw------- 1 hadoop hadoop 668 Jul 24 20:31 id_dsa-rw-r--r-- 1 hadoop hadoop 602 Jul 24 20:31单机回环ssh免密码登录测试hadoop@node1:~/.ssh$ ssh localhostThe authenticity of host'localhost ()' can't be established.ECDSA key fingerprint is SHA256:daO0dssyqt12tt9yGUauImOh6tt6A1SgxzSfSmpQqJVEiQTxas.Are you sure you want to continue connecting (yes/no) yesWarning: Permanently added 'localhost'(ECDSA)to the list of known hosts.Welcome to Ubuntu (GNU/Linux x86_64)* Documentation: packages can be updated.178 updates are security updates.New release' LTS' available.Run 'do-release-upgrade'to upgrade to it.Last login: Sun Jul 2420:21:392016fromhadoop@node1:~$ exit注销Connection to localhost closed.hadoop@node1:~/.ssh$出现以上信息说明操作成功,其他两个节点同样操作让主结点(master)能通过SSH免密码登录两个子结点(slave)hadoop@node1:~/.ssh$ scp hadoop@master:~/.ssh/./The authenticity of host'master ()' can't be established.ECDSA key fingerprint is SHA256:daO0dssyqtt9yGUuImOh646A1SgxzSfatSmpQqJVEiQTxas.Are you sure you want to continue connecting (yes/no) yesWarning: Permanently added 'master,'(ECDSA)to the list of known hosts.hadoop@master's password:100%603 s 00:00 hadoop@node1:~/.ssh$ cat >> authorized_keys如上过程显示了node1结点通过scp命令远程登录master结点,并复制master的公钥文件到当前的目录下,这一过程需要密码验证。
Hadoop分布式详细安装步骤版本:0.20.2准备工作:由于Hadoop要求所有主机上hadoop的部署目录结构要相同,并且都有一个相同的用户名的帐户。
二台机器上是这样的:都有一个coole的帐户,主目录是/home/coole两台机器(内存应在512以上,否则可能会出现计算极度缓慢的情况):一台机器名:master IP:211.87.239.181一台机器名:slave IP:211.87.239.182每台都建coole用户如果是ubuntu,为了便于用coole帐号修改系统设置和访问系统文件,推荐把coole也设为sudoers(有root 权限的用户),具体做法是用已有的sudoer登录系统,执行sudo visudo –f /etc/sudoers,并在此文件中添加以下一行:mapred ALL=(ALL) ALL一、更改主机名:1、修改/etc/sysconfig/networkNETWORKING=yesHOSTNAME=yourname (在这修改hostname,把yourname换成你想用的名字)NISDOMAIN=修改后机器211.87.239.181中/etc/sysconfig/network文件内容为:NETWORKING=yesHOSTNAME=master修改后机器211.87.239.182中/etc/sysconfig/network文件内容为:NETWORKING=yesHOSTNAME=slave2、最后在终端下执行:# hostname ***** (*****为修改后的hostname,即你想用的名字)例如#hostname master特别提示:各处修改的名字要保持一致,否则会出现问题。
3、修改每台机器的/etc/hosts,保证每台机器间都可以通过机器名解析配置etc/hosts文件,以root 身份打开/etc/hosts文件。
Master/slave做同样修改。
hadoop安装流程简单描述英文回答:Installing Hadoop can be a complex process, but I will try to simplify it for you. Here are the steps to install Hadoop:1. Download Hadoop: First, you need to download the Hadoop distribution from the Apache Hadoop website. Make sure to choose the appropriate version for your operating system.2. Set up Java: Hadoop requires Java to run, so you need to install Java Development Kit (JDK) on your system. Make sure to set the JAVA_HOME environment variable to the path of your JDK installation.3. Configure SSH: Hadoop uses SSH to communicate between nodes in the cluster. You need to set up passwordless SSH access to all the nodes in your cluster.This can be done by generating an SSH key pair and adding the public key to the authorized_keys file on each node.4. Configure Hadoop: Next, you need to configure Hadoop by editing the core-site.xml, hdfs-site.xml, and mapred-site.xml files in the Hadoop configuration directory. These files define various settings such as the location of Hadoop data and the number of map and reduce tasks.5. Format the Hadoop File System: Before you can start using Hadoop, you need to format the Hadoop DistributedFile System (HDFS). This can be done by running the command "hdfs namenode -format" on the master node.6. Start Hadoop: Once everything is set up and configured, you can start Hadoop by running the start-all.sh script on the master node. This will start all the necessary daemons, including the NameNode, DataNode, and ResourceManager.7. Test Hadoop: To make sure Hadoop is working correctly, you can run some sample MapReduce jobs. Forexample, you can use the WordCount example that comes with Hadoop to count the number of occurrences of each word in a text file.That's it! You have successfully installed Hadoop. Now you can start using it to process big data.中文回答:安装Hadoop可能是一个复杂的过程,但我会尽量简化它。
hadoop安装之⽹络环境配置1.安装模板虚拟机,IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G (1)安装epel-release (2)关闭防⽕墙,关闭防⽕墙开机⾃启[root@hadoop100 ~]# systemctl stop firewalld[root@hadoop100 ~]# systemctl disable firewalld.service (3)卸载虚拟机⾃带的JDK[root@hadoop100 ~]# rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps (4)重启虚拟机[root@hadoop100 ~]# reboot克隆虚拟机 (1)利⽤模板机hadoop100,克隆三台虚拟机:hadoop102 hadoop103 hadoop104 注意:克隆时,要先关闭hadoop100 (2)修改克隆机IP (1)修改克隆虚拟机的静态IP[root@hadoop100 ~]# vim /etc/sysconfig/network-scripts/ifcfg-ens33改成DEVICE=ens33 TYPE=Ethernet (2)查看Linux虚拟机的虚拟⽹络编辑器,编辑->虚拟⽹络编辑器->VMnet8 (3)修改克隆机主机名 (1)修改主机名称[root@hadoop100 ~]# vim /etc/hostname hadoop102 (2)配置Linux克隆机主机名称映射hosts⽂件,打开/etc/hosts[root@hadoop100 ~]# vim /etc/hosts添加如下内容 192.168.10.100 hadoop100 192.168.10.101 hadoop101 192.168.10.102 hadoop102 192.168.10.103 hadoop103 192.168.10.104 hadoop104 192.168.10.105 hadoop105 192.168.10.106 hadoop106 192.168.10.107 hadoop107 192.168.10.108 hadoop108 (4)重启克隆机hadoop102root@hadoop100 ~]# reboot (5)修改windows的主机映射⽂件(hosts⽂件)。
DATAGURU
专业数据分析社区
辅课之Hadoop
集群安装
本课内容
Hadoop集群规划
样板机安装(VirtualBox) Hadoop集群安装和配置
Hadoop源码编译
Hadoop集群规划
NameNode
–Hadoop1(192.168.1.171 4G Memory, 30GHD) DataNode
–Hadoop1(192.168.1.171 4G Memory, 30GHD)–Hadoop2(192.168.1.172 4G Memory, 30GHD)–Hadoop3(192.168.1.173 4G Memory, 30GHD) 客户端
–wyy(192.168.1.170,物理机)
软件版本
–Java 7UP21
–Hadoop2.2.0
–集群布置前考虑到以后要使用Hbase、Spark等
CentOS安装(注意点java、开发组件、NTP校对)
Ip地址设置、服务设置(开启ssh、关闭防火墙和其他无用服务)、切换文本启动 修改Selinux(/etc/sysconfig/selinux)
修改文件句柄数(/etc/security/limits.conf) //** HBase使用–hadoop - nofile 32768
–hadoop soft/hard nproc 32000
修改登录配置文件(/etc/pam.d/login )
–session required pam_limits.so
sshd_config配置(/etc/ssh/sshd_config)
/etc/hosts配置(/etc/hosts)
增加hadoop组和hadoop用户
–增加组 groupadd -g 1000 hadoop
–增加用户 useradd -u 2000 -g hadoop hadoop
–增加安装目录 mkdir -p /app/hadoop
Java安装
scala安装
环境变量
–export JAVA_HOME=/usr/java/jdk1.7.0_21
–export JRE_HOME=/usr/java/jdk1.7.0_21/jre
–export SCALA_HOME=/app/scala2104
–export HADOOP_COMMON_HOME=/app/hadoop/hadoop220
–export HADOOP_CONF_DIR=/app/hadoop/hadoop220/etc/hadoop
–export YARN_CONF_DIR=/app/hadoop/hadoop220/etc/hadoop
–export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar
–export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:${SCALA_HOME}/bin:${HADOOP_ COMMON_HOME}/bin:${HADOOP_COMMON_HOME}/sbin:$PATH
hadoop文件部署
–配置slaves
–配置core-site.xml
–配置hdfs-site.xml
–配置yarn-site.xml
–配置mapred-site.xml
–配置hadoop-env.sh
hadoop集群安装
样板虚拟机复制
–/etc/udev/rules.d/70-persistent-net.rules
–/etc/sysconfig/network
–/etc/sysconfig/network-scripts/ifcfg-eth0
ssh无密码登录设置
–用ssh-keygen -t rsa生成公钥
–用ssh 机器名 cat /home/hadoop/.ssh/id_rsa.pub>>authorized_keys 合成公钥–修改authorized_keys文件属性为600,并发放给各节点
–用ssh 机器名 date 验证
Hadoop集群启动
–格式化hadoop NN
–启动HDFS和YARN
–上传文件并测试
–UI监控
–客户端验证
hadoop源码编译
编译工具安装
–yum -y install lzo-devel zlib-devel gcc autoconf automake libtool –Ant 1.9.2
–Maven 3.0.5
–ProtocolBuffer 2.5.0(编译安装)
–findbugs 2.0.2
–CMake 2.8.6(编译安装)
打补丁
编译
–mvn clean package -DskipTests -Pdist,native,docs -Dtar
部署文件的位置在hadoop-dist/target/hadoop-2.2.0.tar.gz
文件共享
虚拟机样板文件和编译工具共享
–/s/1dDmqK4h#dir/path=%2Fdeploy
–虚拟机样板文件 hadoop1.ova
–编译工具文件 hadoop_compile.tar.gz
–hadoop配置文件和补丁文件 hadoop_conf.tar.gz
–编译过的hadoop部署文件 hadoop-2.2.0.tar.gz
Cloudera
–Cloudera QuickStart VM
–/content/support/en/downloads/download-components/d ownload-products.html?productID=F6mO278Rvo
Thanks
FAQ时间
DATAGURU专业数据分析社区。