Cloudera Hadoop: Az első lépések a CDH terjesztéssel



Ez az Edureka blog a Cloudera Hadoop oktatóanyagon teljes betekintést nyújt a különböző Cloudera összetevőkbe, mint a Cloudera Manager, a Parcels, Hue stb.

A Big Data iránti növekvő igény és az Apache Hadoopnál néla forradalom lényege, megváltoztatta az adatok rendezésének és kiszámításának módját. Annak szükségessége, hogy a szervezetek összehangolják a Hadoop-ot üzleti szükségleteikkel, felpezsdítette a kereskedelmi forgalmazások megjelenését. A kereskedelmi Hadoop disztribúciókat általában olyan funkciókkal csomagolják, amelyek célja a Hadoop telepítésének ésszerűsítése. A Cloudera Hadoop Distribution skálázható, rugalmas, integrált platformot kínál, amely megkönnyíti a gyorsan növekvő adatmennyiségek és -fajták kezelését a vállalatnál.

Ezen a Cloudera Hadoop Distribution blogon a következő témákkal foglalkozunk:





Cloudera Hadoop: Bevezetés a Hadoopba

A Hadoop egy Apache nyílt forráskódú keretrendszer, amely elosztott környezetben tárolja és dolgozza fel a Big Data-tát aklaszter egyszerű programozási modellek felhasználásával. A Hadoop párhuzamos számítást biztosít az elosztott tárhely tetején.Ha többet szeretne megtudni a Hadoop-ról a erre hivatkozhat

A Hadoop rövid bemutatása után hadd magyarázzam el a Hadoop terjesztés különféle típusait.



Cloudera Hadoop: Hadoop terjesztések

Mivel az Apache Hadoop nyílt forráskódú, sok vállalat olyan disztribúciókat fejlesztett ki, amelyek meghaladják az eredeti nyílt forráskódot. Ez nagyon hasonlít az olyan Linux disztribúciókhoz, mint a RedHat, a Fedora és az Ubuntu. A Linux disztribúciók mindegyike támogatja a saját funkcionalitását és olyan szolgáltatásait, mint az Ubuntu felhasználóbarát grafikus felhasználói felülete. Hasonlóképpen, piros kalap népszerű a vállalkozásokon belül, mert támogatást és ideológiát kínál a rendszer bármely részének változtatásához. A Red Hat megszabadít a szoftverek kompatibilitási problémáitól. Ez általában nagy kérdés a felhasználók számáraakik átállnak a Windows rendszerről.

Hasonlóképpen a Hadoop disztribúcióknak három fő típusa van, amelyek saját funkciókkal és szolgáltatásokkal rendelkeznek, és az alap HDFS alá vannak építve.

Cloudera vs MapR vs Hortonworks

Ábra: MapR vs Hortonworks vs Cloudera

Ábra: MapR vs Hortonworks vs Cloudera



Cloudera Hadoop terjesztés

A Cloudera a Hadoop űrkutatás piaci trendje, és elsőként adta ki a kereskedelmi Hadoop disztribúciót. Tanácsadói szolgáltatásokat kínál a különbség áthidalására - „mit nyújt az Apache Hadoop” és „mire van szüksége a szervezeteknek”.

A Cloudera disztribúció:

  • Gyors az üzleti életben : Az elemzésektől kezdve az adattudományon át minden egyébig, a Cloudera biztosítja a korlátlan adatpotenciál felszabadításához szükséges teljesítményt.
  • Könnyen kezelhetővé teszi Hadoopot : A Cloudera Manager segítségével az automatizált varázslók lehetővé teszik a fürt gyors telepítését, a méretaránytól vagy a telepítési környezettől függetlenül.
  • Kompromisszumok nélkül biztonságos: Megfelel a szigorú adatbiztonsági és megfelelőségi követelményeknek anélkül, hogy feláldozná az üzleti mozgékonyságot. A Cloudera integrált megközelítést kínál az adatbiztonság és az irányítás terén.

Horton-Works terjesztés

A Horton-Works Data Platform (HDP) teljesen nyílt forráskódú platform, amelyet számos forrásból és formátumból származó adatok manőverezésére terveztek. A platform különféle Hadoop eszközöket tartalmaz, mint például a Hadoop Distributed File System (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive és további összetevőket.

Olyan funkciókat is támogat, mint:

  • A HDP teszi a kaptárat gyorsabban új Stinger projektjén keresztül.
  • HDP kerüli az eladó bezárását a Hadoop villás változatának megfogadásával.
  • A HDP összpontosít a használhatóság a Hadoop platform.

MapR terjesztés

A MapR egy platform-központú Hadoop megoldást nyújtó szolgáltató, akárcsak a HortonWorks és a Cloudera. A MapR integrálja saját adatbázis-rendszerét, MapR-DB néven, miközben Hadoop terjesztési szolgáltatásokat kínál. A MapR-DB állítólag négy-hétszer gyorsabb, mint a többi disztribúción futtatott állomány Hadoop adatbázis, azaz HBase.

Érdekes tulajdonságai vannak, mint például:

  • Ez az egyetlen Hadoop-disztribúció, amely mindenféle Java-függőség nélkül tartalmazza a Pig, Hive és Sqoop programokat, mivel a MapR-File System-re támaszkodik.
  • A MapR a leginkább gyártásra kész Hadoop disztribúció, számos fejlesztéssel, amely felhasználóbarátabbá, gyorsabbá és megbízhatóbbá teszi.

Most tárgyaljuk meg alaposan a Cloudera Hadoop terjesztést.

Iratkozzon fel YouTube-csatornánkra, hogy új frissítéseket kaphasson ...

Cloudera Hadoop: Cloudera terjesztés

A Cloudera a Hadoop tér legismertebb játékosa, aki kiadta az első kereskedelmi Hadoop disztribúciót.

Ábra: Cloudera Hadoop disztribúció

A Cloudera Hadoop Distribution a következő funkciókat támogatja:

  1. A Cloudera CDH-ja az összes nyílt forráskomponensből áll, vállalati szintű telepítéseket céloz meg, és az egyik legnépszerűbb kereskedelmi Hadoop disztribúció.
  2. Az újításairól ismert Cloudera volt az első, aki felajánlotta SQL-for-Hadoop azzal Impala lekérdező motor.
  3. A felügyeleti konzol - Cloudera menedzser , könnyen használható és megvalósítható a gazdag felhasználói felülettel, amely a fürt összes információját szervezetten és tiszta módon jeleníti meg.
  4. A CDH-ban zavarás nélkül vehet fel szolgáltatásokat a futó fürtbe.
  5. A Cloudera további kiegészítései tartalmazzák a biztonságot, a felhasználói felületet és a külső alkalmazásokkal való integrációhoz szükséges interfészeket.
  6. CDH biztosítja Csomópont sablonok azaz lehetővé teszi a csomópontok csoportjának létrehozását egy Hadoop-fürtben, változó konfigurációval. Felszámolja ugyanazon konfiguráció használatát az egész Hadoop-fürtben.
  7. Támogatja továbbá:
    • Megbízhatóság
      A Hadoop-gyártók azonnal reagálnak, amikor hibát észlelnek. A kereskedelmi megoldások stabilabbá tétele érdekében a javításokat és javításokat azonnal telepítik.
    • Támogatás
      A Cloudera Hadoop gyártói technikai útmutatást és segítséget nyújtanak, amelyek megkönnyítik az ügyfelek számára a Hadoop alkalmazását vállalati szintű feladatokhoz és a küldetés szempontjából kritikus alkalmazásokhoz.

    • Teljesség
      A Hadoop-gyártók terjesztésüket különféle egyéb kiegészítő eszközökkel kapcsolják össze, amelyek segítenek az ügyfeleknek a Hadoop-alkalmazás testreszabásában, hogy megfeleljenek sajátos feladataiknak.

A Cloudera disztribúciók 2 különböző típusú kiadással állnak elő.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Most nézzük meg a köztük lévő különbségeket.

Jellemzők Cloudera-Express Cloudera-Enterprise
Klaszterkezelés
1. Többklaszteres menedzsmentIgenIgen
2. Erőforrás-kezelésIgenIgen
Telepítés
1. A CDH 4 és 5 támogatásaIgenIgen
2. A CDH folyamatos frissítéseNemIgen
Szolgáltatás- és konfigurációkezelés
1. A HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark és Accumulo szolgáltatások kezeléseIgenIgen
2. A szolgáltatások folyamatos újraindításaNemIgen
Biztonság
1. LDAP-hitelesítésNemIgen
2. SAML-hitelesítésNemIgen
Monitoring és diagnosztika
1. EgészségtörténetIgenIgen
Riasztáskezelés
1. Riasztás e-mailbenIgenIgen
2. Riasztás az SNMP-n keresztülNemIgen
Haladó menedzsment funkciók
1. Automatizált biztonsági mentés és helyreállításNemIgen
2. Fájlok böngészése és kereséseNemIgen
3. MapReduce, Impala, HBase, Fonalhasználati jelentésekNemIgen

Cloudera Hadoop: Cloudera menedzser

Cloudera szerint a Cloudera Manager a legjobb módszer erre telepítés , Beállítás , kezelni , és monitor a Hadoop-verem.

Ez biztosítja:

  1. Automatizált telepítés és konfigurálás
  2. Testreszabható figyelés és jelentéskészítés
  3. Könnyű, robusztus hibaelhárítás
  4. Nulla - Leállási idő karbantartás

Részletes ismeretek szerzése a Cloudera Hadoopról és annak különféle eszközeiről

A Cloudera Manager bemutatása

Fedezzük fel a Cloudera Manager-t.

1. Az alábbi ábra mutatja a Cloudera Managerben jelenleg futó szolgáltatások számát. Megtekintheti a fürt CPU használatáról, a lemez IO használatáról stb. Szóló diagramokat is.

Ábra: A Cloudera Manager honlapja

2. Az alábbi kép a HBase klasztert szemlélteti. Diagramokat és grafikonokat ad a jelenleg futó HBase REST szerver egészségi állapotáról.

Ábra: A HBase szerver egészségi állapota

3. Most nézzük meg a HBase fürt Instances fülét, ahol ellenőrizheti az állapotot és az IP konfigurációt.

Ábra: A HBase-fürt hosztkiszolgálójának állapota és IP-címe

4. Ezután megjelenik a Konfiguráció fül. Itt láthatja az összes konfigurációs paramétert és megváltoztathatja azok értékeit.

Ábra: A HBase-fürt konfigurálása

amit a java sorosít

Most értsük meg, mi a csomag a Cloudera-ban.

Cloudera Hadoop: Csomagok

A csomag egy bináris terjesztési formátum, amely tartalmazza a program fájlokat, valamint a Cloudera Manager által használt további metaadatokat.

A csomagok önállóak és változatos könyvtárba vannak telepítve, ami azt jelenti, hogy az adott szolgáltatás több változata is telepíthető egymás mellett.

Az alábbiakban bemutatjuk a csomag használatának előnyeit:

  • Ez biztosítja a CDH egyetlen objektumként történő terjesztését, vagyis ahelyett, hogy a CDH minden részéhez külön csomag lenne, a csomagoknak csak egyetlen objektumot kell telepíteniük.

  • Belső konzisztenciát kínál (mivel a teljes CDH-t egyetlen csomagként osztják szét, az összes CDH-komponens illeszkedik, és nem áll fenn annak kockázata, hogy a CDH különböző verzióiból különböző alkatrészek származnak).

  • Néhány kattintással telepítheti, frissítheti, visszaminősítheti, terjesztheti és aktiválhatja a csomagokat a CDH-ban.

Most nézzük meg, hogyan kell telepíteni és aktiválni a Kafka szolgáltatást a CDH-ban a Parcels segítségével.

  1. Menjen a Cloudera menedzser honlapjára >> Gazdák >> Csomagok az alábbiak szerint

    Ábra: Parcellák kiválasztása a hosztok közül

2. Ha nem látja a Kafkát a csomagok listájában, felveheti a csomagot a listára.

  1. Keresse meg a használni kívánt Kafka verzió csomagját. Ha nem látja, felveheti a csomagtárat a listába.
  2. Keresse meg a telepíteni kívánt Kafka verzió csomagját - Az Apache Kafka verziók Cloudera terjesztése .
    Az alábbi ábra ugyanazt mutatja.

Ábra: A csomag tárháza.

3. Másolja a linket a fenti ábra szerint, és adja hozzá a Távoli csomagtárhoz az alábbiak szerint.

Ábra: A Kafka-út hozzáadása a tárból

Négy.Az elérési út hozzáadása után Kafka készen áll a letöltésre. Csak kattintson a letöltés gombra, és töltse le a Kafka-t.

Ábra: A Kafka letöltése

5. A Kafka letöltését követően csak terjesztenie és aktiválnia kell.

Ábra: A Kafka aktiválása

Miután aktiválta, folytathatja a Kafka megtekintését a Cloudera manager szolgáltatások lapján.

Ábra: Kafka-szolgáltatás

Cloudera Hadoop: Oozie munkafolyamat létrehozása

Munkafolyamat létrehozása az XML kód manuális megírásával, majd végrehajtásával bonyolult. Erre hivatkozhat Az Oozie-munka ütemezése blog, hogy megismerje a hagyományos megközelítést.

Az alábbi képet láthatja, ahol egy egyszerű Oozie-munkafolyamat létrehozásához XML-fájlt írtunk. Ábra: Oozie munkafolyamat létrehozása hagyományos megközelítéssel

Amint láthatja, még egy egyszerű Oozie ütemező létrehozásához is hatalmas XML kódot kellett írni, amely időigényes, és minden egyes sor hibakeresése nehézkessé válik. Ennek leküzdése érdekében a Cloudera Manager új funkciót vezetett be Színárnyalat amely GUI-t és egyszerű drag and drop funkciókat biztosít az Oozie munkafolyamatok létrehozásához és végrehajtásához.

Most nézzük meg, hogy Hue hogyan hajtja végre ugyanazt a feladatot egyszerűsítve.

Munkafolyamat létrehozása előtt hozzunk létre először bemeneti fájlokat, azaz a clickstream.txt és a user.txt fájlokat.
A user.txt fájlban megvan a felhasználói azonosító, a név, az életkor, az ország, a nem, az alábbiak szerint. Erre a felhasználói fájlra van szükségünk ahhoz, hogy tudjuk, hogy a felhasználó a felhasználói azonosító alapján számolja és rákattint az URL-re (amelyet a clickstream fájl említ).

Ábra: Szöveges fájl létrehozása

Annak érdekében, hogy megtudjuk a felhasználó által az egyes URL-címekre leadott kattintások számát, rendelkezünk egy kattintási folyamattal, amely tartalmazza a felhasználói azonosítót és az URL-t.

Ábra: Clickstream fájl

Írjuk be a lekérdezéseket a szkriptfájlba.

Ábra: Script fájl

A felhasználói fájl, a clickstream fájl és a szkriptfájl létrehozása után folytathatjuk az Oozie munkafolyamatot.

1. Egyszerűen húzhatja az Oozie munkafolyamatot a képen látható módon.

Ábra: Az Oozie munkafolyamat létrehozásának drag and drop funkciója

2. A művelet elhagyása után hamarosan meg kell adnia a szkriptfájl elérési útját, és hozzá kell adnia a szkriptfájlban említett paramétereket. Itt hozzá kell adni az OUTPUT, a CLICKSTREAM és a USER paramétereket, és meg kell adni az egyes paraméterek elérési útját.

Ábra: Szkriptfájl és a művelet végrehajtásához szükséges paraméterek hozzáadása

3. Miután megadta az útvonalakat és hozzáadta a paramétereket, most egyszerűen mentse el és küldje el a munkafolyamatot az alábbi képen látható módon.

Ábra: Az Oozie művelet mentése és beküldése

4. Miután elküldte a feladatot, a munkája befejeződött. A végrehajtást és a többi lépést Hue gondozza.

Ábra: Az Oozie-feladat végrehajtási állapota

5.Most, hogy elvégeztük az Oozie munkát, vessünk egy pillantást a művelet fülre. Ez tartalmazza a felhasználói azonosítót és a munkafolyamat állapotát. Ezenkívül megjeleníti a hibakódokat, ha vannak ilyenek, a művelet elem kezdési és befejezési idejét.

Ábra: Az Oozie munkafolyamat művelet lapján lévő elemek

6. A művelet fül mellett található a részletek fül. Ebben láthatjuk a munka kezdési és utoljára módosított idejét.

Ábra: Az Oozie munkafolyamat részletei.

7. A Részletek fül mellett található a munkafolyamat Konfiguráció lapja.

Ábra: Az Oozie munkafolyamat konfigurációs beállításai

7. A műveletelem végrehajtása közben, ha hibát észlel, a Napló fülre kerül. Hivatkozhat a hibakivonatokra, és ennek megfelelően hibakeresheti.

Ábra: Naplófájl, amely hibakódokat és hibakivonatokat tartalmaz

8. Itt van a Hue által automatikusan létrehozott munkafolyamat XML-kódja.

Ábra: Az Oozie munkafolyamat XML-kódja

9.1. Mivel a 2. lépésben már megadta a kimeneti könyvtár elérési útját, itt van a kimeneti könyvtár a HDFS böngészőben, az alábbiak szerint.

mi a formátum a pythonban

Ábra: A HDFS böngésző kimeneti könyvtára

9.2 Miután rákattintott a kimeneti könyvtárra, talál egy output.txt nevű szövegfájlt, amely a tényleges kimenetet tartalmazza az alábbi ábra szerint.

Ábra: Végső kimeneti szöveg

A Hue így teszi egyszerűbbé a munkánkat azáltal, hogy az Oozie munkafolyamat létrehozásához húzza és húzza opciókat kínál.

Remélem, hogy ez a blog hasznos volt a Cloudera terjesztés és a különböző Cloudera összetevők megértéséhez.

Szeretne részt venni a Big Data forradalomban?

Most, hogy megértette a Cloudera Hadoop Distribution-t, nézze meg a az Edureka, egy megbízható online tanulási vállalat, amelynek több mint 250 000 elégedett tanulóval rendelkező hálózata elterjedt az egész világon. Az Edureka Big Data Hadoop tanúsító tanfolyam segít a tanulóknak a HDFS, a fonal, a MapReduce, a Pig, a Hive, a HBase, az Oozie, a Flume és a Sqoop szakértőivé válni, valós idejű felhasználási esetek felhasználásával a kiskereskedelem, a szociális média, a repülés, az idegenforgalom és a pénzügy területén.

Van egy kérdésünk? Kérjük, említse meg a megjegyzések részben, és mi kapcsolatba lépünk Önnel.