A Hadoop Single Node Cluster (Pseudonode) telepítése a CentOS 7 rendszeren
A Hadoop egy nyílt forráskódú keretrendszer, amelyet széles körben használnak a Bigdata kezelésére. A Bigdata/Data Analytics projektek többsége a Hadoop Eco-Systemre épül. Két rétegből áll, az egyik az Adatok tárolására, a másik pedig az Adatok feldolgozására.
A tárolásról a saját HDFS nevű fájlrendszere gondoskodik (Hadoop Distributed Filesystem), és a feldolgozás. a YARN (Yet Another Resource Negotiator) gondozása. A Mapreduce a Hadoop Eco-System alapértelmezett feldolgozómotorja.
Ez a cikk leírja a Pseudonode Hadoop telepítésének folyamatát, ahol az összes démon (JVM) Single Node Cluster futtatása CentOS 7 rendszeren.
Ez főleg kezdőknek szól a Hadoop megtanulásához. Valós időben a Hadoop többcsomópontos fürtként lesz telepítve, ahol az adatok blokkokként kerülnek elosztásra a szerverek között, és a feladat párhuzamosan kerül végrehajtásra.
Előfeltételek
- A CentOS 7 szerver minimális telepítése.
- Java v1.8 kiadás.
- Hadoop 2.x stabil kiadás.
Ezen az oldalon
- A Java telepítése a CentOS 7 rendszeren
- Jelszó nélküli bejelentkezés beállítása a CentOS 7 rendszeren
- A Hadoop Single Node telepítése a CentOS 7 rendszerben
- A Hadoop konfigurálása a CentOS 7 rendszerben
- A HDFS fájlrendszer formázása a NameNode segítségével
Java telepítése CentOS 7 rendszeren
1. A Hadoop egy ökorendszer, amely Javából épül fel. A Hadoop telepítéséhez kötelezően telepítenünk kell a Javát a rendszerünkben.
yum install java-1.8.0-openjdk
2. Ezután ellenőrizze a Java telepített verzióját a rendszeren.
java -version
Jelszó nélküli bejelentkezés konfigurálása a CentOS 7 rendszeren
Az ssh-t be kell állítanunk a gépünkön, a Hadoop az SSH használatával fogja kezelni a csomópontokat. A főcsomópont SSH kapcsolatot használ a szolga csomópontok összekapcsolásához, és olyan műveletek végrehajtásához, mint az indítás és a leállítás.
Be kell állítanunk a jelszó nélküli ssh-t, hogy a mester jelszó nélkül kommunikálhasson az ssh használatával. Ellenkező esetben minden kapcsolat létrehozásához meg kell adnia a jelszót.
Ebben az egyetlen csomópontban Master szolgáltatások (Namenode, Secondary Namenode & Resource Manager) és Slave< szolgáltatások (Datanode és Nodemanager) külön JVM-ként fognak futni. Annak ellenére, hogy egyetlen csomópontról van szó, jelszó nélküli ssh-re van szükségünk ahhoz, hogy Master legyen a Slave kommunikáció hitelesítés nélkül.
3. Állítson be jelszó nélküli SSH-bejelentkezést a következő parancsokkal a szerveren.
ssh-keygen
ssh-copy-id -i localhost
4. Miután konfigurálta a jelszó nélküli SSH bejelentkezést, próbáljon meg újra bejelentkezni, jelszó nélkül csatlakozik.
ssh localhost
A Hadoop telepítése a CentOS 7 rendszerben
5. Nyissa meg az Apache Hadoop webhelyet, és töltse le a Hadoop stabil kiadását a következő wget paranccsal.
wget https://archive.apache.org/dist/hadoop/core/hadoop-2.10.1/hadoop-2.10.1.tar.gz
tar xvpzf hadoop-2.10.1.tar.gz
6. Ezután adja hozzá a Hadoop környezeti változókat a ~/.bashrc
fájlhoz az ábra szerint.
HADOOP_PREFIX=/root/hadoop-2.10.1
PATH=$PATH:$HADOOP_PREFIX/bin
export PATH JAVA_HOME HADOOP_PREFIX
7. Miután hozzáadta a környezeti változókat a ~/.bashrc
fájlhoz, szerezze be a fájl forrását, és ellenőrizze a Hadoop-ot a következő parancsok futtatásával.
source ~/.bashrc
cd $HADOOP_PREFIX
bin/hadoop version
A Hadoop konfigurálása a CentOS 7 rendszerben
Az alábbi Hadoop konfigurációs fájlokat kell konfigurálnunk, hogy elférjen a gépén. A Hadoop szolgáltatásban minden szolgáltatásnak saját portszáma és saját könyvtára van az adatok tárolására.
- Hadoop konfigurációs fájlok – core-site.xml, hdfs-site.xml, mapred-site.xml és yarn-site.xml
8. Először is frissítenünk kell a JAVA_HOME
és a Hadoop elérési utat a hadoop-env.sh fájlban, ahogy az ábra mutatja. .
cd $HADOOP_PREFIX/etc/hadoop
vi hadoop-env.sh
Írja be a következő sort a fájl elejére.
export JAVA_HOME=/usr/lib/jvm/java-1.8.0/jre
export HADOOP_PREFIX=/root/hadoop-2.10.1
9. Ezután módosítsa a core-site.xml
fájlt.
cd $HADOOP_PREFIX/etc/hadoop
vi core-site.xml
Illessze be a következőt a <configuration>
címkék közé az ábra szerint.
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
10. Hozza létre az alábbi könyvtárakat a tecmint
felhasználói kezdőkönyvtárban, amelyeket az NN és DN tárolására használunk.
mkdir -p /home/tecmint/hdata/
mkdir -p /home/tecmint/hdata/data
mkdir -p /home/tecmint/hdata/name
10. Ezután módosítsa a hdfs-site.xml
fájlt.
cd $HADOOP_PREFIX/etc/hadoop
vi hdfs-site.xml
Illessze be a következőt a <configuration>
címkék közé az ábra szerint.
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/tecmint/hdata/name</value>
</property>
<property>
<name>dfs .datanode.data.dir</name>
<value>home/tecmint/hdata/data</value>
</property>
</configuration>
11. Ismét módosítsa a mapred-site.xml
fájlt.
cd $HADOOP_PREFIX/etc/hadoop
cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml
Illessze be a következőt a <configuration>
címkék közé az ábra szerint.
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
12. Végül módosítsa a yarn-site.xml
fájlt.
cd $HADOOP_PREFIX/etc/hadoop
vi yarn-site.xml
Illessze be a következőt a <configuration>
címkék közé az ábra szerint.
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
A HDFS fájlrendszer formázása a NameNode segítségével
13. A fürt elindítása előtt formáznunk kell a Hadoop NN fájlt azon a helyi rendszerünkön, ahol telepítve van. Általában ez a kezdeti szakaszban történik, a fürt első elindítása előtt.
Az NN formázása adatvesztést okoz az NN metastore-ban, ezért óvatosabbnak kell lennünk, ne formázzuk az NN-t a fürt futása közben, hacsak nem szándékosan van rá szükség.
cd $HADOOP_PREFIX
bin/hadoop namenode -format
14. Indítsa el a NameNode démont és a DataNode démont: (az 50070 port).
cd $HADOOP_PREFIX
sbin/start-dfs.sh
15. Indítsa el a ResourceManager démont és a NodeManager démont: (a 8088 port).
sbin/start-yarn.sh
16. Az összes szolgáltatás leállítása.
sbin/stop-dfs.sh
sbin/stop-dfs.sh
Összegzés
Összegzés
Ebben a cikkben lépésről lépésre végigvezettük a Hadoop Pseudonode (Egyetlen csomópont) fürt beállítását. Ha rendelkezik alapvető Linux ismeretekkel, és követi ezeket a lépéseket, a fürt 40 percen belül UP lesz.
Ez nagyon hasznos lehet a kezdők számára a Hadoop tanulásának és gyakorlásának megkezdéséhez, vagy a Hadoop vaníliás verziója használható fejlesztési célokra. Ha valós idejű fürtöt akarunk, akkor vagy legalább 3 fizikai szerverre van szükségünk, vagy Cloud-ot kell biztosítanunk több szerver használatához.