A magas rendelkezésre állású Hive telepítése és konfigurálása – 7. rész

A Hive egy Adattárház modell a Hadoop Eco-Systemben. A Hadoop mellett ETL-eszközként is működhet. A magas rendelkezésre állás (HA) engedélyezése a Hive-en nem hasonló, mint az olyan főszolgáltatásokban, mint a Namenode és a Resource Manager.

Az automatikus feladatátvétel nem történik meg a Hive-ben (Hiveserver2). Ha bármelyik Hiveserver2 (HS2) meghibásodik, a sikertelen HS2-en futó feladatok meghiúsulnak. Újra el kell küldenünk a munkát, hogy a feladat futhasson más HiveServer2-n. Tehát a HA engedélyezése a HS2 rendszeren nem más, mint a HS2 összetevők számának növelése a fürtben.

Ebben a cikkben a Hive Magas rendelkezésre állása telepítésének és engedélyezésének lépéseit láthatjuk.

Követelmények

A Hadoop Server telepítésének bevált gyakorlatai CentOS/RHEL 7 rendszeren – 1. rész
A Hadoop előfeltételeinek beállítása és a biztonság megerősítése – 2. rész
A Cloudera Manager telepítése és konfigurálása a CentOS/RHEL 7 rendszeren – 3. rész
A CDH telepítése és a szolgáltatáselhelyezések konfigurálása a CentOS/RHEL 7 rendszeren – 4. rész
A Namenode magas rendelkezésre állásának beállítása – 5. rész
A Resource Manager magas rendelkezésre állásának beállítása – 6. rész

Kezdjük el…

Kaptár telepítése és konfigurálása

1. Jelentkezzen be a Cloudera Managerbe az alábbi URL-címen, és lépjen a Cloudera Manager –> Szolgáltatás hozzáadása oldalra. .

http://13.233.129.39:7180/cmf/home

2. Válassza ki a „Hive” szolgáltatást.

3. Rendelje hozzá a szolgáltatásokat a csomópontokhoz.

Átjáró – Ez az az ügyfélszolgáltatás, ahol a felhasználó hozzáférhet a kaptárhoz. Általában ez a szolgáltatás a felhasználók számára fenntartott Edge csomópontokba kerül.
Hive Metastore – Ez egy központi adattár a Hive metaadatainak tárolására.
WebHCat Server – Ez egy webes API a HCataloghoz és más Hadoop-szolgáltatásokhoz.
Hiveserver2 – Ez a kliensek felülete a Hive lekérdezések végrehajtásához.

A szerverek kiválasztása után kattintson a „Folytatás” gombra a folytatáshoz.

4. A Hive Metastore-nak szüksége van egy mögöttes adatbázisra a metaadatok tárolásához. Itt az alapértelmezett PostgreSQL adatbázist használjuk, amely a CDH segítségével van beépítve.

Az alábbi adatbázis-adatok automatikusan beírásra kerülnek, a „Teszt kapcsolat” kimarad, mivel az említett adatbázis menet közben jön létre. Valós időben létre kell hoznunk az adatbázist a külső adatbázisban, és tesztelnünk kell a kapcsolatot a továbblépéshez. Ha elkészült, kattintson a „Folytatás” gombra.

5. Állítsa be a Hive Warehouse könyvtárat, a /user/hive/warehouse az alapértelmezett könyvtár elérési útja a Hive táblák tárolására. Kattintson a „Folytatás” gombra.

6. A Hive telepítése megkezdődött.

7. A telepítés befejezése után a „Befejezett” állapotot kaphatja. A továbblépéshez kattintson a „Folytatás” gombra.

8. A kaptár telepítése és konfigurálása sikeresen befejeződött. Kattintson a „Befejezés” gombra a telepítési folyamat befejezéséhez.

9. A Clusterben hozzáadott Hive szolgáltatást a Cloudera Manager irányítópultján tekintheti meg.

10. A Hiveserver2 a Hive Példányai között tekinthető meg. Hozzáadtuk a Hiveserver2-t a master1-hez.

Cloudera Manager –> Hive –> Példányok –> Hiveserver2.

Magas rendelkezésre állás engedélyezése a Hive-n

11. Ezután vegye fel a Hive szerepkört a Cloudera Manager –> Hive –> Actions –> menüvel. Szereppéldányok hozzáadása.

12. Válassza ki azokat a szervereket, amelyekre további Hiveserver2-t szeretne elhelyezni. Kettőnél többet is hozzáadhat, nincs korlátozás. Itt hozzáadunk egy további Hiveserver2-t a master2-hez.

13. Miután kiválasztotta a szervert, kattintson a „Folytatás” gombra.

14. Egy Hiverserver2 kerül hozzáadásra a Hive Instances listához, amelyet a Cloudera Manager megnyitásával kell elindítani. –> Hive –> Példányok –> (Válassza ki a Hiveserver2-t újonnan hozzáadva) –> Művelet a kiválasztottakhoz –> Indítás.

15. Miután a Hiveserver2 elindult a master2 rendszeren, a „Befejezett” állapotot kapja. Kattintson a Bezárás gombra.

16. Megtekintheti, mindkét Hiveserver2 fut.

A kaptár elérhetőségének ellenőrzése

A Hiveserver2-t a vékony kliens és a parancssori beeline-on keresztül csatlakoztathatjuk. A kapcsolat létrehozásához a JDBC illesztőprogramot használja.

17. Jelentkezzen be a kiszolgálóra, ahol a Hive Gateway fut.

[tecmint@master1 ~]$ beeline

18. Írja be a JDBC kapcsolati karakterláncot a Hiveserver2 csatlakoztatásához. Ezzel kapcsolatban a karakterláncként a Hiverserver2-t (master2) említjük, amelynek alapértelmezett portszáma 10000. Ez a kapcsolati karakterlánc csak a Hiveserver2-hez csatlakozik, amely a master2 rendszeren fut.

beeline> !connect "jdbc:hive2://master1.linux-console.net:10000"

19. Futtasson le egy mintalekérdezést.

0: jdbc:hive2://master1.linux-console.net:10000> show databases;

Ez a beépített alapértelmezett adatbázis.

20. Az alábbi paranccsal fejezze be a Hive munkamenetet.

0: jdbc:hive2://master1.linux-console.net:10000> !quit

21. Ugyanígy csatlakozhat a master2-n futó Hiveserver2hez.

beeline> !connect "jdbc:hive2://master2.linux-console.net:10000"

23. A Hiveserver2-t Zookeeper Discovery módban tudjuk csatlakoztatni. Ennél a módszernél nem kell megemlítenünk a Hiveserver2-t a kapcsolati karakterláncban, hanem a Zookeeper segítségével fedezzük fel az elérhető Hiveserver2-t.

Itt harmadik féltől származó terheléselosztót használhatunk a terhelés kiegyenlítésére a rendelkezésre álló Hiverserver2 között. Az alábbi konfigurációnak engedélyeznie kell a Zookeeper felfedezési módot a Cloudera Manager –> Hive –> Configuration menüben.

24. Ezután keressen a „HiveServer2 Advanced Configuration Snippet” tulajdonságban, és kattintson a + szimbólumra az alábbi tulajdonság hozzáadásához.

Name : hive.server2.support.dynamic.service.discovery
Value : true
Description : <any description>

25. Miután belépett a tulajdonba, kattintson a „Módosítások mentése” gombra.

26. Mivel módosítottuk a konfigurációt, újra kell indítani az érintett szolgáltatásokat a narancssárga színű szimbólumra kattintva a szolgáltatások újraindításához.

27. Kattintson a „Elévült szolgáltatások újraindítása” elemre.

28. Két lehetőség áll rendelkezésre. Ha a fürt éles termelésben van, akkor a folyamatos újraindítást kell előnyben részesítenünk a kimaradás minimalizálása érdekében. Az új telepítés során választhatjuk a második lehetőséget, „Ügyfélkonfiguráció újratelepítése”, majd kattintson az „Újraindítás most” lehetőségre.

29. Az újraindítás sikeres befejezése után a „Befejezett” állapotot kapja. A folyamat befejezéséhez kattintson a „Befejezés” gombra.

30. Most összekapcsoljuk a Hiveserver2-t a Zookeeper Discovery módban. A JDBC kapcsolatnál a Zookeeper szerverek használatához szükséges karakterlánc a 2081 portszámmal. Gyűjtsd össze a Zookeeper szervereket a Cloudera Manager –> Zookeeper –> Példányok –> menüpontban (jegyezd fel a szerverneveket).

Ez a három kiszolgáló Zookeeperrel, 2181 a portszám.

master1.linux-console.net:2181
master2.linux-console.net:2181
worker1.linux-console.net:2181

31. Most lépjen be a beeline-be.

[tecmint@master1 ~]$ beeline

32. Írja be a JDBC csatlakozási karakterláncot az alábbiak szerint. Meg kell említenünk a Szolgáltatásfelderítési módot és a Zookeeper névteret. A „hiveserver2” a Hiveserver2 alapértelmezett névtere.

beeline>!connect "jdbc:hive2://master1.linux-console.net:2181,master2.linux-console.net:2181,worker1.linux-console.net:2181/;serviceDiscoveryMode=zookeeper;zookeeperNamespace=hiveserver2"

33. Most a munkamenet csatlakozik a Master1-en futó Hiveserver2-hez. Futtasson le egy mintalekérdezést az érvényesítéshez. Használja az alábbi parancsot adatbázis létrehozásához.

0: jdbc:hive2://master1.linux-console.net:2181,mast> create database tecmint;

34. Használja az alábbi parancsot az adatbázis listázásához.

0: jdbc:hive2://master1.linux-console.net:2181,mast> show databases;

35. Most ellenőrizni fogjuk a magas rendelkezésre állást Zookeeper Discovery módban. Nyissa meg a Cloudera Manager webhelyet, és állítsa le a Hiveserver2-t a master1-en, amelyet fent teszteltünk.

Cloudera Manager –> Hive –> Példányok –> (válassza a Hiveserver2 lehetőséget a master1-en ) –> Művelet a kiválasztottnál –> Stop.

36. Kattintson a „Leállítás” gombra. A leállítás után a „Befejezett” állapotot kapja. Ellenőrizze a Hiveserver2-t a master1-en a Hive –> Példányok között.

37. Lépjen be a beeline-be, és csatlakoztassa a Hiveserver2-t ugyanazzal a JDBC kapcsolati karakterlánccal a Zookeeper Discovery segítségével módban, ahogy a fenti lépésekben tettük.

[tecmint@master1 ~]$ beeline

beeline>!connect "jdbc:hive2://master1.linux-console.net:2181,master2.linux-console.net:2181,worker1.linux-console.net:2181/;serviceDiscoveryMode=zookeeper;zookeeperNamespace=hiveserver2"

Most csatlakozik a Hiveserver2-höz, amely a master2-n fut.

38. Érvényesítse egy mintalekérdezéssel.

0: jdbc:hive2://master1.linux-console.net:2181,mast> show databases;

Következtetés

Ebben a cikkben a Hive Data Warehouse modellnek a Magas rendelkezésre állású klaszterünkben történő beépítéséhez szükséges részletes lépéseken mentünk keresztül. Valós idejű éles környezetben több mint három Hiveserver2 lesz elhelyezve, amelyeknél engedélyezve van a Zookeeper Discovery Mode.

Itt az összes Hiveserver2 regisztrál a Zookeeper szolgáltatásban egy közös névtér alatt. A Zookeeper dinamikusan felfedezi az elérhető Hiveserver2-t, és létrehozza a Hive munkamenetet.