Hadoop YARN oktatóanyag - Ismerje meg a YARN Architecture alapjait



Ez a blog az Apache Hadoop YARN-ra összpontosít, amelyet a Hadoop 2.0 verzióban vezettek be az erőforrás-kezelés és a munkaütemezés céljából. Megmagyarázza a YARN architektúráját annak összetevőivel és mindegyikük által elvégzett feladatokkal. Leírja az alkalmazás benyújtását és az Apache Hadoop YARN munkafolyamatát.

A Hadoop YARN megköti a Hadoop, azaz a HDFS (Hadoop Distributed File System) tárolóegységét a különféle feldolgozóeszközökkel. Azok számára, akik teljesen újak ebben a témában, a YARN a Y és NAK NEK nem R forrás N egotátor ”. Azt is javasolnám, hogy menjen át a miénken és mielőtt továbbtanulna az Apache Hadoop YARN-on. Itt fogom elmagyarázni a következő témákat, hogy megbizonyosodjak arról, hogy e blog végén egyértelműen megértetted a Hadoop YARN-t.

Miért YARN?

Az 1.0-s Hadoop verzióban, amelyet MRV1-nek is neveznek (MapReduce 1. verzió), a MapReduce feldolgozási és erőforrás-kezelési funkciókat is végrehajtott. Ez egy Job Trackerből állt, amely az egyedüli mester volt. A Job Tracker kiosztotta az erőforrásokat, elvégezte az ütemezést és figyelemmel kísérte a feldolgozási feladatokat. Térképet rendelt és csökkentette a feladatokat számos alárendelt folyamatban, a Task Tracker nevű folyamatban. A Feladatkövetők rendszeresen jelentették előrehaladásukat a Munkakövetőnek.





MapReduce 1.0 verzió - Hadoop FONAL - Edureka

Ez a kialakítás skálázhatósági szűk keresztmetszetet eredményezett egyetlen Job Tracker révén.Az IBM cikkében megemlítette, hogy a Yahoo! Szerint az ilyen tervezés gyakorlati határait egyidejűleg futó 5000 csomópontból és 40 000 feladatból álló klaszterrel érik el.Ezen korlátozástól eltekintve a számítási erőforrások felhasználása nem hatékony az MRV1-ben. A Hadoop keretrendszer csak a MapReduce feldolgozási paradigmára korlátozódott.



objektumok tömbje java példa

Mindezen problémák leküzdése érdekében a YARN-t a Yahoo és a Hortonworks vezette be a Hadoop 2.0 verzióban 2012-ben. A YARN alapgondolata a MapReduce megkönnyítése az erőforrás-menedzsment és az ütemezés felelősségének átvállalásával. A YARN megadta a Hadoop számára azt a képességet, hogy nem MapReduce munkákat futtasson a Hadoop keretén belül.

Megnézheti az alábbi videót is, ahol a mi szakértő részletesen tárgyalja a YARN koncepciókat és az építészetet.

Hadoop fonal bemutató | Hadoop fonalépítészet | Edureka

A YARN bevezetésével a teljesen forradalmasították. Sokkal rugalmasabb, hatékonyabb és méretezhetőbb lett. Amikor a Yahoo 2013 első negyedévében életbe lépett a YARN-nal, segítette a vállalatot, hogy a Hadoop-fürt méretét 40 000 csomópontról 32 000 csomópontra csökkentse. De a munkahelyek száma megkétszereződött, havi 26 millióra.



Bevezetés a Hadoop YARN-ba

Most, hogy felvilágosítottalak a YARN szükségességéről, hadd mutassam be a Hadoop v2.0 alapvető összetevőjét, FONAL . A YARN lehetővé teszi a HDFS-ben tárolt adatok futtatását és feldolgozását különböző adatfeldolgozási módszerekkel, például grafikonfeldolgozással, interaktív feldolgozással, adatfolyam-feldolgozással, valamint kötegelt feldolgozással. Ezért a YARN megnyitja a Hadoopot a MapReduce-on kívül más típusú elosztott alkalmazások számára is.

A YARN lehetővé tette a felhasználók számára a követelményeknek megfelelő műveletek végrehajtását különféle eszközök, például valós idejű feldolgozáshoz, Kaptár SQL esetén, HBase a NoSQL és mások számára.

Az erőforrás-menedzsment mellett a YARN elvégzi a munkaütemezést is. A YARN az összes feldolgozási tevékenységét erőforrások kiosztásával és ütemezési feladatokkal hajtja végre. Az Apache Hadoop YARN Architecture a következő fő összetevőkből áll:

  1. Erőforrás menedzser : Fő démonon fut, és kezeli az erőforrás-elosztást a fürtben.
  2. Csomópontkezelő: A rabszolga démonokon futnak, és felelősek minden egyes adatcsomóponton egy feladat végrehajtásáért.
  3. Application Master: Kezeli az egyes alkalmazások felhasználói életciklusát és erőforrásigényét. A Csomópontkezelővel együtt működik, és figyeli a feladatok végrehajtását.
  4. Tartály: Erőforrások, beleértve a RAM-ot, a CPU-t, a Hálózatot, a HDD-t stb., Egyetlen csomóponton.

A Fonal összetevői

A YARN-ot a Hadoop-ökoszisztéma agyának tekintheti. Az alábbi kép a YARN architektúrát ábrázolja.

Az első komponens a YARN Architecture

Erőforrás menedzser

  • Ez az erőforrás-allokáció legfőbb hatósága .
  • A feldolgozási kérelmek fogadásakor a kérések egy részét ennek megfelelően továbbítja a megfelelő csomópontkezelőknek, ahol a tényleges feldolgozás történik.
  • A fürt erőforrásainak választott bírója, és dönt a rendelkezésre álló erőforrások elosztásáról a versengő alkalmazások számára.
  • Optimalizálja a fürt kihasználtságát, például az összes erőforrás folyamatos használatban tartását a különféle korlátok, például a kapacitásgaranciák, a méltányosság és az SLA-k ellen.
  • Két fő alkotóeleme van:a) Ütemezőb)Alkalmazáskezelő

a) Ütemező

  • Az ütemező felelős az erőforrások kiosztásáért a különböző futó alkalmazásokhoz, a kapacitások, a sorok stb. Korlátozásai mellett.
  • Tiszta ütemezőnek hívják a ResourceManager programban, ami azt jelenti, hogy nem végez semmilyen monitorozást vagy állapotkövetést az alkalmazások számára.
  • Alkalmazáshiba vagy hardverhiba esetén az Ütemező nem garantálja a sikertelen feladatok újraindítását.
  • Ütemezést hajt végre az alkalmazások erőforrásigénye alapján.
  • Bővíthető házirend-bővítménnyel rendelkezik, amely felelős a fürt erőforrások felosztásáért a különböző alkalmazások között. Két ilyen plug-in létezik: Kapacitásütemező és Fair Scheduler , amelyeket jelenleg a ResourceManager programban ütemezőként használnak.

b) Alkalmazáskezelő

  • Feladata az álláspályázatok elfogadása.
  • Tárgyalja az első tárolót az Erőforrás-kezelőtől az alkalmazásspecifikus Application Master végrehajtásához.
  • Kezeli az Application Masters futtatását egy fürtben, és szolgáltatást nyújt az Application Master tároló hibaként történő újraindításához.

Jön a második komponens ami:

Csomópontkezelő

  • Gondoskodik a Hadoop-fürt egyes csomópontjairól éskezeli a felhasználói feladatokat és a munkafolyamatot az adott csomóponton.
  • Regisztrál az Erőforrás-kezelőnél, és szívdobbanásokat küld a csomópont egészségi állapotával.
  • Elsődleges célja az erőforrás-kezelő által hozzá rendelt alkalmazás-tárolók kezelése.
  • Naprakészen tart az Erőforrás-kezelővel.
  • Az Application Master kéri a hozzárendelt tárolót a Csomópontkezelőtől egy Container Launch Context (CLC) elküldésével, amely tartalmazza az alkalmazás futtatásához szükséges összeset. A Csomópontkezelő létrehozza és elindítja a kért tároló folyamatot.
  • Figyeli az egyes tárolók erőforrás-felhasználását (memória, CPU).
  • Naplókezelést végez.
  • Megöli a tárolót is az Erőforrás-kezelő utasítása szerint.

Az harmadik komponens az Apache Hadoop YARN

Application Master
  • A pályázat egyetlen keretrendszerhez benyújtott munka. Minden ilyen alkalmazáshoz egyedi Application Master társul, amely egy keret specifikus entitás.
  • Ez a folyamat koordinálja az alkalmazás végrehajtását a fürtben, és a hibákat is kezeli.
  • Feladata egyeztetni az erőforrásokat az Erőforrás-kezelőtől, és a Csomópontkezelővel együttműködve végrehajtani és figyelemmel kísérni az összetevő-feladatokat.
  • Feladata a megfelelő erőforrástárolók tárgyalása a ResourceManager-től, azok állapotának nyomon követése és az előrehaladás figyelemmel kísérése.
  • Miután elindult, rendszeresen szívveréseket küld az erőforrás-kezelőnek, hogy megerősítse egészségét és frissítse az erőforrásigényének nyilvántartását.

Az negyedik komponens az:

Tartály
  • Ez egy fizikai erőforrások gyűjteménye, például RAM, CPU magok és lemezek egyetlen csomóponton.
  • A YARN konténereket egy konténerindítási kontextus kezeli, amely a konténer életciklusa (CLC). Ez a rekord tartalmazza a környezeti változók, a távolról hozzáférhető tárolóban tárolt függőségek térképét, biztonsági tokenek, a Node Manager szolgáltatások hasznos terhe és a folyamat létrehozásához szükséges parancsot.
  • Jogosultságot ad egy alkalmazásnak arra, hogy meghatározott mennyiségű erőforrást (memóriát, CPU-t stb.) Használjon egy adott gazdagépen.

A pályázat benyújtása YARN-ban

Tekintse meg a képet, és tekintse meg a Hadoop YARN kérelem benyújtásának lépéseit:

1) Küldje el a munkát

2)Szerezze be az alkalmazásazonosítót

3) A pályázat benyújtásának kontextusa

4 a) Indítsa el a konténertDob

b) Indítsa el az Application Master alkalmazást

5) Források kiosztása

6 a) Konténer

system.exit (0) java

b) Indítás

7) Végrehajt

Alkalmazás munkafolyama a Hadoop YARN-ban

Tekintse meg a megadott képet, és kövesse az Apache Hadoop YARN alkalmazás munkafolyamatának következő lépéseit:

  1. Az ügyfél kérelmet nyújt be
  2. Az Resource Manager tárolót rendel az Application Manager elindításához
  3. Az Application Manager regisztrál az Erőforrás-kezelőnél
  4. Az Application Manager a tárolókat kéri az Erőforrás-kezelőtől
  5. Az Application Manager értesíti a Node Manager-t a tárolók elindításáról
  6. Az alkalmazás kódot a tárolóban hajtják végre
  7. Az ügyfél kapcsolatba lép az Erőforrás-kezelővel / Alkalmazáskezelővel az alkalmazás állapotának figyelemmel kísérése érdekében
  8. Az Application Manager törli a regisztrációt az Erőforrás-kezelővel

Most, hogy ismeri az Apache Hadoop YARN-t, nézze meg a az Edureka, egy megbízható online tanulási vállalat, amelynek több mint 250 000 elégedett tanulóval rendelkező hálózata elterjedt az egész világon. Az Edureka Big Data Hadoop tanúsító tanfolyam segít a tanulóknak a HDFS, a fonal, a MapReduce, a Pig, a Hive, a HBase, az Oozie, a Flume és a Sqoop szakértőivé válni, valós idejű felhasználási esetek felhasználásával a kiskereskedelem, a szociális média, a repülés, az idegenforgalom és a pénzügy területén.

Van egy kérdésünk? Kérjük, említse meg a megjegyzések részben, és mi kapcsolatba lépünk Önnel.