A magas rendelkezésre állású Hive telepítése és konfigurálása – 7. rész
A Hive egy Adattárház modell a Hadoop Eco-Systemben. A Hadoop mellett ETL-eszközként is működhet. A magas rendelkezésre állás (HA) engedélyezése a Hive-en nem hasonló, mint az olyan főszolgáltatásokban, mint a Namenode és a Resource Manager.
Az automatikus feladatátvétel nem történik meg a Hive-ben (Hiveserver2). Ha bármelyik Hiveserver2 (HS2) meghibásodik, a sikertelen HS2-en futó feladatok meghiúsulnak. Újra el kell küldenünk a munkát, hogy a feladat futhasson más HiveServer2-n. Tehát a HA engedélyezése a HS2 rendszeren nem más, mint a HS2 összetevők számának növelése a fürtben.
Ebben a cikkben a Hive Magas rendelkezésre állása telepítésének és engedélyezésének lépéseit láthatjuk.
Követelmények
- A Hadoop Server telepítésének bevált gyakorlatai CentOS/RHEL 7 rendszeren – 1. rész
- A Hadoop előfeltételeinek beállítása és a biztonság megerősítése – 2. rész
- A Cloudera Manager telepítése és konfigurálása a CentOS/RHEL 7 rendszeren – 3. rész
- A CDH telepítése és a szolgáltatáselhelyezések konfigurálása a CentOS/RHEL 7 rendszeren – 4. rész
- A Namenode magas rendelkezésre állásának beállítása – 5. rész
- A Resource Manager magas rendelkezésre állásának beállítása – 6. rész
Kezdjük el…
Kaptár telepítése és konfigurálása
1. Jelentkezzen be a Cloudera Managerbe az alábbi URL-címen, és lépjen a Cloudera Manager –> Szolgáltatás hozzáadása oldalra. .
http://13.233.129.39:7180/cmf/home
2. Válassza ki a „Hive” szolgáltatást.
3. Rendelje hozzá a szolgáltatásokat a csomópontokhoz.
- Átjáró – Ez az az ügyfélszolgáltatás, ahol a felhasználó hozzáférhet a kaptárhoz. Általában ez a szolgáltatás a felhasználók számára fenntartott Edge csomópontokba kerül.
- Hive Metastore – Ez egy központi adattár a Hive metaadatainak tárolására.
- WebHCat Server – Ez egy webes API a HCataloghoz és más Hadoop-szolgáltatásokhoz.
- Hiveserver2 – Ez a kliensek felülete a Hive lekérdezések végrehajtásához.
A szerverek kiválasztása után kattintson a „Folytatás” gombra a folytatáshoz.
4. A Hive Metastore-nak szüksége van egy mögöttes adatbázisra a metaadatok tárolásához. Itt az alapértelmezett PostgreSQL adatbázist használjuk, amely a CDH segítségével van beépítve.
Az alábbi adatbázis-adatok automatikusan beírásra kerülnek, a „Teszt kapcsolat” kimarad, mivel az említett adatbázis menet közben jön létre. Valós időben létre kell hoznunk az adatbázist a külső adatbázisban, és tesztelnünk kell a kapcsolatot a továbblépéshez. Ha elkészült, kattintson a „Folytatás” gombra.
5. Állítsa be a Hive Warehouse könyvtárat, a /user/hive/warehouse az alapértelmezett könyvtár elérési útja a Hive táblák tárolására. Kattintson a „Folytatás” gombra.
6. A Hive telepítése megkezdődött.
7. A telepítés befejezése után a „Befejezett” állapotot kaphatja. A továbblépéshez kattintson a „Folytatás” gombra.
8. A kaptár telepítése és konfigurálása sikeresen befejeződött. Kattintson a „Befejezés” gombra a telepítési folyamat befejezéséhez.
9. A Clusterben hozzáadott Hive szolgáltatást a Cloudera Manager irányítópultján tekintheti meg.
10. A Hiveserver2 a Hive Példányai között tekinthető meg. Hozzáadtuk a Hiveserver2-t a master1-hez.
Cloudera Manager –> Hive –> Példányok –> Hiveserver2.
Magas rendelkezésre állás engedélyezése a Hive-n
11. Ezután vegye fel a Hive szerepkört a Cloudera Manager –> Hive –> Actions –> menüvel. Szereppéldányok hozzáadása.
12. Válassza ki azokat a szervereket, amelyekre további Hiveserver2-t szeretne elhelyezni. Kettőnél többet is hozzáadhat, nincs korlátozás. Itt hozzáadunk egy további Hiveserver2-t a master2-hez.
13. Miután kiválasztotta a szervert, kattintson a „Folytatás” gombra.
14. Egy Hiverserver2 kerül hozzáadásra a Hive Instances listához, amelyet a Cloudera Manager megnyitásával kell elindítani. –> Hive –> Példányok –> (Válassza ki a Hiveserver2-t újonnan hozzáadva) –> Művelet a kiválasztottakhoz –> Indítás.
15. Miután a Hiveserver2 elindult a master2 rendszeren, a „Befejezett” állapotot kapja. Kattintson a Bezárás gombra.
16. Megtekintheti, mindkét Hiveserver2 fut.
A kaptár elérhetőségének ellenőrzése
A Hiveserver2-t a vékony kliens és a parancssori beeline-on keresztül csatlakoztathatjuk. A kapcsolat létrehozásához a JDBC illesztőprogramot használja.
17. Jelentkezzen be a kiszolgálóra, ahol a Hive Gateway fut.
[tecmint@master1 ~]$ beeline
18. Írja be a JDBC kapcsolati karakterláncot a Hiveserver2 csatlakoztatásához. Ezzel kapcsolatban a karakterláncként a Hiverserver2-t (master2) említjük, amelynek alapértelmezett portszáma 10000. Ez a kapcsolati karakterlánc csak a Hiveserver2-hez csatlakozik, amely a master2 rendszeren fut.
beeline> !connect "jdbc:hive2://master1.linux-console.net:10000"
19. Futtasson le egy mintalekérdezést.
0: jdbc:hive2://master1.linux-console.net:10000> show databases;
Ez a beépített alapértelmezett adatbázis.
20. Az alábbi paranccsal fejezze be a Hive munkamenetet.
0: jdbc:hive2://master1.linux-console.net:10000> !quit
21. Ugyanígy csatlakozhat a master2-n futó Hiveserver2hez.
beeline> !connect "jdbc:hive2://master2.linux-console.net:10000"
23. A Hiveserver2-t Zookeeper Discovery módban tudjuk csatlakoztatni. Ennél a módszernél nem kell megemlítenünk a Hiveserver2-t a kapcsolati karakterláncban, hanem a Zookeeper segítségével fedezzük fel az elérhető Hiveserver2-t.
Itt harmadik féltől származó terheléselosztót használhatunk a terhelés kiegyenlítésére a rendelkezésre álló Hiverserver2 között. Az alábbi konfigurációnak engedélyeznie kell a Zookeeper felfedezési módot a Cloudera Manager –> Hive –> Configuration menüben.
24. Ezután keressen a „HiveServer2 Advanced Configuration Snippet” tulajdonságban, és kattintson a +
szimbólumra az alábbi tulajdonság hozzáadásához.
Name : hive.server2.support.dynamic.service.discovery
Value : true
Description : <any description>
25. Miután belépett a tulajdonba, kattintson a „Módosítások mentése” gombra.
26. Mivel módosítottuk a konfigurációt, újra kell indítani az érintett szolgáltatásokat a narancssárga színű szimbólumra kattintva a szolgáltatások újraindításához.
27. Kattintson a „Elévült szolgáltatások újraindítása” elemre.
28. Két lehetőség áll rendelkezésre. Ha a fürt éles termelésben van, akkor a folyamatos újraindítást kell előnyben részesítenünk a kimaradás minimalizálása érdekében. Az új telepítés során választhatjuk a második lehetőséget, „Ügyfélkonfiguráció újratelepítése”, majd kattintson az „Újraindítás most” lehetőségre.
29. Az újraindítás sikeres befejezése után a „Befejezett” állapotot kapja. A folyamat befejezéséhez kattintson a „Befejezés” gombra.
30. Most összekapcsoljuk a Hiveserver2-t a Zookeeper Discovery módban. A JDBC kapcsolatnál a Zookeeper szerverek használatához szükséges karakterlánc a 2081 portszámmal. Gyűjtsd össze a Zookeeper szervereket a Cloudera Manager –> Zookeeper –> Példányok –> menüpontban (jegyezd fel a szerverneveket).
Ez a három kiszolgáló Zookeeperrel, 2181 a portszám.
master1.linux-console.net:2181
master2.linux-console.net:2181
worker1.linux-console.net:2181
31. Most lépjen be a beeline-be.
[tecmint@master1 ~]$ beeline
32. Írja be a JDBC csatlakozási karakterláncot az alábbiak szerint. Meg kell említenünk a Szolgáltatásfelderítési módot és a Zookeeper névteret. A „hiveserver2” a Hiveserver2 alapértelmezett névtere.
beeline>!connect "jdbc:hive2://master1.linux-console.net:2181,master2.linux-console.net:2181,worker1.linux-console.net:2181/;serviceDiscoveryMode=zookeeper;zookeeperNamespace=hiveserver2"
33. Most a munkamenet csatlakozik a Master1-en futó Hiveserver2-hez. Futtasson le egy mintalekérdezést az érvényesítéshez. Használja az alábbi parancsot adatbázis létrehozásához.
0: jdbc:hive2://master1.linux-console.net:2181,mast> create database tecmint;
34. Használja az alábbi parancsot az adatbázis listázásához.
0: jdbc:hive2://master1.linux-console.net:2181,mast> show databases;
35. Most ellenőrizni fogjuk a magas rendelkezésre állást Zookeeper Discovery módban. Nyissa meg a Cloudera Manager webhelyet, és állítsa le a Hiveserver2-t a master1-en, amelyet fent teszteltünk.
Cloudera Manager –> Hive –> Példányok –> (válassza a Hiveserver2 lehetőséget a master1-en ) –> Művelet a kiválasztottnál –> Stop.
36. Kattintson a „Leállítás” gombra. A leállítás után a „Befejezett” állapotot kapja. Ellenőrizze a Hiveserver2-t a master1-en a Hive –> Példányok között.
37. Lépjen be a beeline-be, és csatlakoztassa a Hiveserver2-t ugyanazzal a JDBC kapcsolati karakterlánccal a Zookeeper Discovery segítségével módban, ahogy a fenti lépésekben tettük.
[tecmint@master1 ~]$ beeline
beeline>!connect "jdbc:hive2://master1.linux-console.net:2181,master2.linux-console.net:2181,worker1.linux-console.net:2181/;serviceDiscoveryMode=zookeeper;zookeeperNamespace=hiveserver2"
Most csatlakozik a Hiveserver2-höz, amely a master2-n fut.
38. Érvényesítse egy mintalekérdezéssel.
0: jdbc:hive2://master1.linux-console.net:2181,mast> show databases;
Következtetés
Ebben a cikkben a Hive Data Warehouse modellnek a Magas rendelkezésre állású klaszterünkben történő beépítéséhez szükséges részletes lépéseken mentünk keresztül. Valós idejű éles környezetben több mint három Hiveserver2 lesz elhelyezve, amelyeknél engedélyezve van a Zookeeper Discovery Mode.
Itt az összes Hiveserver2 regisztrál a Zookeeper szolgáltatásban egy közös névtér alatt. A Zookeeper dinamikusan felfedezi az elérhető Hiveserver2-t, és létrehozza a Hive munkamenetet.