A Hadoop Single Node Cluster (Pseudonode) telepítése a CentOS 7 rendszeren

A Hadoop egy nyílt forráskódú keretrendszer, amelyet széles körben használnak a Bigdata kezelésére. A Bigdata/Data Analytics projektek többsége a Hadoop Eco-Systemre épül. Két rétegből áll, az egyik az Adatok tárolására, a másik pedig az Adatok feldolgozására.

A tárolásról a saját HDFS nevű fájlrendszere gondoskodik (Hadoop Distributed Filesystem), és a feldolgozás. a YARN (Yet Another Resource Negotiator) gondozása. A Mapreduce a Hadoop Eco-System alapértelmezett feldolgozómotorja.

Ez a cikk leírja a Pseudonode Hadoop telepítésének folyamatát, ahol az összes démon (JVM) Single Node Cluster futtatása CentOS 7 rendszeren.

Ez főleg kezdőknek szól a Hadoop megtanulásához. Valós időben a Hadoop többcsomópontos fürtként lesz telepítve, ahol az adatok blokkokként kerülnek elosztásra a szerverek között, és a feladat párhuzamosan kerül végrehajtásra.

Előfeltételek

A CentOS 7 szerver minimális telepítése.
Java v1.8 kiadás.
Hadoop 2.x stabil kiadás.

Ezen az oldalon

A Java telepítése a CentOS 7 rendszeren
Jelszó nélküli bejelentkezés beállítása a CentOS 7 rendszeren
A Hadoop Single Node telepítése a CentOS 7 rendszerben
A Hadoop konfigurálása a CentOS 7 rendszerben
A HDFS fájlrendszer formázása a NameNode segítségével

Java telepítése CentOS 7 rendszeren

1. A Hadoop egy ökorendszer, amely Javából épül fel. A Hadoop telepítéséhez kötelezően telepítenünk kell a Javát a rendszerünkben.

yum install java-1.8.0-openjdk

2. Ezután ellenőrizze a Java telepített verzióját a rendszeren.

java -version

Jelszó nélküli bejelentkezés konfigurálása a CentOS 7 rendszeren

Az ssh-t be kell állítanunk a gépünkön, a Hadoop az SSH használatával fogja kezelni a csomópontokat. A főcsomópont SSH kapcsolatot használ a szolga csomópontok összekapcsolásához, és olyan műveletek végrehajtásához, mint az indítás és a leállítás.

Be kell állítanunk a jelszó nélküli ssh-t, hogy a mester jelszó nélkül kommunikálhasson az ssh használatával. Ellenkező esetben minden kapcsolat létrehozásához meg kell adnia a jelszót.

Ebben az egyetlen csomópontban Master szolgáltatások (Namenode, Secondary Namenode & Resource Manager) és Slave< szolgáltatások (Datanode és Nodemanager) külön JVM-ként fognak futni. Annak ellenére, hogy egyetlen csomópontról van szó, jelszó nélküli ssh-re van szükségünk ahhoz, hogy Master legyen a Slave kommunikáció hitelesítés nélkül.

3. Állítson be jelszó nélküli SSH-bejelentkezést a következő parancsokkal a szerveren.

ssh-keygen
ssh-copy-id -i localhost

4. Miután konfigurálta a jelszó nélküli SSH bejelentkezést, próbáljon meg újra bejelentkezni, jelszó nélkül csatlakozik.

ssh localhost

A Hadoop telepítése a CentOS 7 rendszerben

5. Nyissa meg az Apache Hadoop webhelyet, és töltse le a Hadoop stabil kiadását a következő wget paranccsal.

wget https://archive.apache.org/dist/hadoop/core/hadoop-2.10.1/hadoop-2.10.1.tar.gz
tar xvpzf hadoop-2.10.1.tar.gz

6. Ezután adja hozzá a Hadoop környezeti változókat a ~/.bashrc fájlhoz az ábra szerint.

HADOOP_PREFIX=/root/hadoop-2.10.1
PATH=$PATH:$HADOOP_PREFIX/bin
export PATH JAVA_HOME HADOOP_PREFIX

7. Miután hozzáadta a környezeti változókat a ~/.bashrc fájlhoz, szerezze be a fájl forrását, és ellenőrizze a Hadoop-ot a következő parancsok futtatásával.

source ~/.bashrc
cd $HADOOP_PREFIX
bin/hadoop version

A Hadoop konfigurálása a CentOS 7 rendszerben

Az alábbi Hadoop konfigurációs fájlokat kell konfigurálnunk, hogy elférjen a gépén. A Hadoop szolgáltatásban minden szolgáltatásnak saját portszáma és saját könyvtára van az adatok tárolására.

Hadoop konfigurációs fájlok – core-site.xml, hdfs-site.xml, mapred-site.xml és yarn-site.xml

8. Először is frissítenünk kell a JAVA_HOME és a Hadoop elérési utat a hadoop-env.sh fájlban, ahogy az ábra mutatja. .

cd $HADOOP_PREFIX/etc/hadoop
vi hadoop-env.sh

Írja be a következő sort a fájl elejére.

export JAVA_HOME=/usr/lib/jvm/java-1.8.0/jre
export HADOOP_PREFIX=/root/hadoop-2.10.1

9. Ezután módosítsa a core-site.xml fájlt.

cd $HADOOP_PREFIX/etc/hadoop
vi core-site.xml

Illessze be a következőt a <configuration> címkék közé az ábra szerint.

<configuration>
            <property>
                   <name>fs.defaultFS</name>
                   <value>hdfs://localhost:9000</value>
           </property>
</configuration>

10. Hozza létre az alábbi könyvtárakat a tecmint felhasználói kezdőkönyvtárban, amelyeket az NN és DN tárolására használunk.

mkdir -p /home/tecmint/hdata/
mkdir -p /home/tecmint/hdata/data
mkdir -p /home/tecmint/hdata/name

10. Ezután módosítsa a hdfs-site.xml fájlt.

cd $HADOOP_PREFIX/etc/hadoop
vi hdfs-site.xml

Illessze be a következőt a <configuration> címkék közé az ábra szerint.

<configuration>
<property>
        <name>dfs.replication</name>
        <value>1</value>
 </property>
  <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/tecmint/hdata/name</value>
  </property>
  <property>
          <name>dfs .datanode.data.dir</name>
          <value>home/tecmint/hdata/data</value>
  </property>
</configuration>

11. Ismét módosítsa a mapred-site.xml fájlt.

cd $HADOOP_PREFIX/etc/hadoop
cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml

Illessze be a következőt a <configuration> címkék közé az ábra szerint.

<configuration>
                <property>
                        <name>mapreduce.framework.name</name>
                        <value>yarn</value>
                </property>
</configuration>

12. Végül módosítsa a yarn-site.xml fájlt.

cd $HADOOP_PREFIX/etc/hadoop
vi yarn-site.xml

Illessze be a következőt a <configuration> címkék közé az ábra szerint.

<configuration>
                <property>
                       <name>yarn.nodemanager.aux-services</name>
                       <value>mapreduce_shuffle</value>
                </property>
</configuration>

A HDFS fájlrendszer formázása a NameNode segítségével

13. A fürt elindítása előtt formáznunk kell a Hadoop NN fájlt azon a helyi rendszerünkön, ahol telepítve van. Általában ez a kezdeti szakaszban történik, a fürt első elindítása előtt.

Az NN formázása adatvesztést okoz az NN metastore-ban, ezért óvatosabbnak kell lennünk, ne formázzuk az NN-t a fürt futása közben, hacsak nem szándékosan van rá szükség.

cd $HADOOP_PREFIX
bin/hadoop namenode -format

14. Indítsa el a NameNode démont és a DataNode démont: (az 50070 port).

cd $HADOOP_PREFIX
sbin/start-dfs.sh

15. Indítsa el a ResourceManager démont és a NodeManager démont: (a 8088 port).

sbin/start-yarn.sh

16. Az összes szolgáltatás leállítása.

sbin/stop-dfs.sh
sbin/stop-dfs.sh

Összegzés

Összegzés
Ebben a cikkben lépésről lépésre végigvezettük a Hadoop Pseudonode (Egyetlen csomópont) fürt beállítását. Ha rendelkezik alapvető Linux ismeretekkel, és követi ezeket a lépéseket, a fürt 40 percen belül UP lesz.

Ez nagyon hasznos lehet a kezdők számára a Hadoop tanulásának és gyakorlásának megkezdéséhez, vagy a Hadoop vaníliás verziója használható fejlesztési célokra. Ha valós idejű fürtöt akarunk, akkor vagy legalább 3 fizikai szerverre van szükségünk, vagy Cloud-ot kell biztosítanunk több szerver használatához.