HDFS oktatóanyag: Bevezetés a HDFS-be és annak jellemzőibe



Ez a HDFS oktatóblog segít megérteni a HDFS vagy a Hadoop elosztott fájlrendszert és annak szolgáltatásait. Röviden meg fogja vizsgálni annak fő elemeit is.

HDFS bemutató

Mielőtt továbblépnék ebben a HDFS oktatóblogban, engedje át, hogy áttekintsek néhány, a HDFS-re vonatkozó őrült statisztikát:

  • 2010-ben, Facebook azt állította, hogy rendelkezik az egyik legnagyobb HDFS-fürt tárolóval 21 petabájt adatokból.
  • 2012-ben, Facebook kijelentette, hogy náluk van a legnagyobb egyetlen HDFS-fürt, több mint 100 PB adatokból .
  • És Jehu ! több mint 100 000 CPU át 40 000 szerver a Hadoop futtatása, a legnagyobb Hadoop-fürt futásával 4500 csomópont . Mindent elmondva, a Yahoo! üzletek 455 petabájt adatok HDFS-ben.
  • Valójában 2013-ra a Fortune 50 nagy nevei közül a legtöbb elkezdte használni a Hadoop-ot.

Túl nehéz megemészteni? Jobb. Amint azt a , Hadoopnak két alapvető egysége van - S tombolni és Feldolgozás . Amikor azt mondom, hogy a Hadoop tároló része, arra hivatkozom HDFS ami azt állítja Hadoop elosztott fájlrendszer . Tehát ebben a blogban bemutatom Önöket HDFS .





Itt fogok beszélni:

  • Mi az a HDFS?
  • A HDFS előnyei
  • A HDFS jellemzői

Mielőtt a HDFS-ről beszélnék, hadd mondjam el, mi az az elosztott fájlrendszer?



DFS vagy elosztott fájlrendszer:

Elosztott fájlrendszer beszél kezelése adat , azaz fájlokat vagy mappákat több számítógépen vagy szerveren. Más szavakkal, a DFS egy fájlrendszer, amely lehetővé teszi számunkra, hogy egy fürtben több csomóponton vagy gépen tároljuk az adatokat, és lehetővé teszi több felhasználó számára az adatok elérését. Alapvetően tehát ugyanazt a célt szolgálja, mint a számítógépen elérhető fájlrendszer, például az NTFS (új technológiájú fájlrendszer) vagy a Mac esetén a HFS (hierarchikus fájlrendszer) operációs rendszert futtató Windows esetén. Az egyetlen különbség az, hogy elosztott fájlrendszer esetén az adatokat több gépen tárolja, nem pedig egyetlen gépen. Annak ellenére, hogy a fájlokat a hálózaton keresztül tárolják, az DFS úgy rendezi és jeleníti meg az adatokat, hogy a gépen ülő felhasználók úgy érezzék, mintha az összes adatot éppen abban a gépben tárolták volna.

Mi az a HDFS?

A Hadoop Distributed fájlrendszer vagy a HDFS egy Java alapú elosztott fájlrendszer, amely lehetővé teszi, hogy nagy adatokat tároljon a Hadoop-fürt több csomópontján. Tehát, ha telepíti a Hadoop-ot, a HDFS-t kapja mögöttes tárolórendszerként az adatok elosztott környezetben történő tárolásához.

Vegyünk egy példát, hogy megértsük. Képzelje el, hogy minden gépen van tíz gép vagy tíz számítógép, 1 TB-os merevlemezzel. A HDFS azt mondja, hogy ha a Hadoop-ot platformként telepíti a tíz gép tetejére, akkor a HDFS-t tárolási szolgáltatásként kapja meg. A Hadoop elosztott fájlrendszert úgy terjesztik, hogy minden gép hozzájáruljon az egyedi tárhelyéhez bármilyen adat tárolásához.



HDFS oktatóanyag: A HDFS előnyei

1. Elosztott tárolás:

Elosztott tárhely - HDFS oktatóanyag - Edureka

Amikor a Hadoop-fürt tíz gépének bármelyikéből hozzáfér a Hadoop Distributed fájlrendszerhez, akkor úgy fogja érezni, mintha egyetlen nagy gépbe jelentkezett volna be, amelynek tárkapacitása 10 TB (összesen több mint tíz gép). Mit jelent? Ez azt jelenti, hogy egyetlen nagy, 10 TB-os fájlt tárolhat, amelyet a tíz gépre osztanak (egyenként 1 TB).Így van nem korlátozódik a fizikai határokra minden egyes gép.

2. Elosztott és párhuzamos számítás:

Mivel az adatok megoszlanak a gépek között, lehetővé teszi számunkra, hogy kihasználjuk Elosztott és párhuzamos számítás . Értsük meg ezt a fogalmat a fenti példával. Tegyük fel, hogy 1 perc fájl feldolgozása egyetlen gépen 43 percet vesz igénybe. Tehát most mondja meg, mennyi időbe telik ugyanazon 1 TB-os fájl feldolgozása, ha hasonló konfigurációjú Hadoop-fürtben van 10 gépe - 43 perc vagy 4,3 perc? 4,3 perc, igaz! Mi történt itt? Mindegyik csomópont párhuzamosan dolgozik az 1 TB fájl egy részével. Ezért a 43 perccel ezelőtti munka mindössze 4,3 perc alatt fejeződött be, mivel a munka tíz gépre oszlott.

3. Vízszintes méretezhetőség:

Végül, de nem utolsósorban beszéljünk a következőkről vízszintes méretezés vagy méretezés a Hadoopban. Kétféle méretezés létezik: függőleges és vízszintes . A vertikális méretezésnél (nagyítás) növeli a rendszer hardverkapacitását. Más szóval, több RAM-ot vagy CPU-t szerez be, és hozzáadja a meglévő rendszerhez, hogy robusztusabb és erőteljesebb legyen. A vertikális méretezéssel vagy méretnöveléssel azonban vannak kihívások:

  • Mindig van egy korlát, amelyig növelheti a hardver kapacitását. Tehát nem lehet folyamatosan növelni a gép RAM-ját vagy CPU-ját.
  • Függőleges méretezésnél először állítsa le a gépét. Ezután növeli a RAM-ot vagy a CPU-t, hogy robusztusabb hardverköteggé váljon. Miután megnövelte a hardver kapacitását, újraindítja a gépet. Ez a leállás, amikor leállítja a rendszert, kihívássá válik.

Esetében vízszintes méretezés (kicsinyítés) , további csomópontokat ad hozzá a meglévő fürthöz ahelyett, hogy növelné az egyes gépek hardverkapacitását. És ami a legfontosabb: lehet további gépeket adjon útközben azaz a rendszer leállítása nélkül . Ezért, miközben kiterjesztjük, nincs semmilyen leállási időnk vagy zöld zónánk, semmi ilyen. A nap végén több gép dolgozik párhuzamosan, hogy megfeleljen az Ön igényeinek.

c ++ egy tömb rendezése

HDFS oktató videó:

Megnézheti az alábbi videót, ahol részletesen megvitatták a HDFS-hez kapcsolódó összes fogalmat:

HDFS oktatóanyag: A HDFS jellemzői

Ezeket a funkciókat részletesen meg fogjuk érteni, amikor a HDFS architektúrát a következő HDFS oktatóblogunkban vizsgáljuk meg. Most azonban legyen egy áttekintés a HDFS jellemzőiről:

  • Költség: A HDFS általában olyan árucikk-hardveren van telepítve, mint az asztali számítógép / laptop, amelyet minden nap használ. Tehát nagyon gazdaságos a projekt tulajdonjogi költségeit tekintve. Mivel alacsony árú hardvert használunk, nem kell hatalmas összeget költenie a Hadoop-fürt méretének növelésére. Más szóval, további csomópontok hozzáadása a HDFS-hez költséghatékony.
  • Az adatok változatossága és mennyisége: Ha HDFS-ről beszélünk, akkor hatalmas adatok, azaz terabájt és petabájt és különféle adatok tárolásáról beszélünk. Tehát bármilyen típusú adatot tárolhat a HDFS-ben, legyen az strukturált, strukturálatlan vagy félig strukturált.
  • Megbízhatóság és hibatűrés: Ha adatokat tárol a HDFS-en, akkor az adott adatokat belsőleg adatblokkokra osztja, és elosztott módon tárolja a Hadoop-fürtön belül. A metaadatokban rögzítik, hogy melyik adatblokk melyik adatcsomóponton található. NameNode kezeli a metaadatokat és a DataNodes felelősek az adatok tárolásáért.
    A névcsomópont megismétli az adatokat, vagyis az adatok több példányát fenntartja. Az adatok ilyen replikációja a HDFS-t nagyon megbízhatóvá és hibatűrővé teszi. Tehát, még akkor is, ha bármelyik csomópont meghibásodik, lekérhetjük az adatokat a más adatcsomópontokon található másolatokról. Alapértelmezés szerint a replikációs tényező 3. Ezért, ha 1 GB fájlt tárol a HDFS-ben, az végül 3 GB helyet foglal el. A névcsomópont rendszeresen frissíti a metaadatokat, és a replikációs tényező konzisztens marad.
  • Adatintegritás: Az Adatintegritás arról beszél, hogy a HDFS-ben tárolt adatok helyesek-e vagy sem. A HDFS folyamatosan ellenőrzi a tárolt adatok integritását az ellenőrző összegével összehasonlítva. Ha hibát talál, jelentést tesz róla a névcsomópontnak. Ezután a névcsomópont további új replikákat hoz létre, ezért törli a sérült példányokat.
  • Nagy teljesítmény: Az áteresztőképesség az egységnyi idő alatt elvégzett munka mennyisége. Beszél arról, hogy milyen gyorsan férhet hozzá az adatokhoz a fájlrendszerből. Alapvetően betekintést nyújt a rendszer teljesítményébe. Amint azt a fenti példában láthattátok, ahol tíz gépet használtunk együttesen a számítás javítására. Itt csökkenteni tudtuk a feldolgozási időt 43 perc puszta 4,3 perc mivel az összes gép párhuzamosan működött. Ezért az adatok párhuzamos feldolgozásával rendkívül lecsökkentettük a feldolgozási időt, és így nagy teljesítményt értünk el.
  • Adatok helye: Az adat lokalitása a feldolgozó egység adatként történő áthelyezéséről beszél, nem pedig az adatról a feldolgozó egységre. Hagyományos rendszerünkben az adatokat az alkalmazási rétegbe vittük, majd feldolgoztuk. De most, az architektúra és az adatok hatalmas mennyisége miatt az adatok az alkalmazás rétegbe kerülnekérezhetően csökkenti a hálózati teljesítményt.Tehát a HDFS-ben a számítási részt eljuttatjuk azokhoz az adatcsomópontokhoz, ahol az adatok találhatók. Ezért nem az adatokat mozgatja, hanem a programot vagy a folyamatotaz adatok egy részét.

Tehát most van egy rövid elképzelése a HDFS-ről és annak jellemzőiről. De bízzatok bennem, srácok, ez csak a jéghegy csúcsa. A következőmben , Mélyen belemerülök a HDFS architektúra és leleplezöm a HDFS sikereinek titkait. Együtt válaszolunk mindazokra a kérdésekre, amelyek a fejedben töprengenek, például:

  • Mi történik a kulisszák mögött, amikor adatokat olvas vagy ír a Hadoop elosztott fájlrendszerben?
  • Milyen algoritmusok vannak, például a rack-tudatosság, amely a HDFS-t annyira hibatűrővé teszi?
  • Hogyan kezeli és hozza létre a replikát a Hadoop Distributed File System?
  • Mik azok a blokk műveletek?

Most, hogy megértette a HDFS-t és annak jellemzőit, nézze meg a az Edureka, egy megbízható online tanulási vállalat, amelynek több mint 250 000 elégedett tanulóval rendelkező hálózata elterjedt az egész világon. Az Edureka Big Data Hadoop tanúsító tanfolyam segít a tanulóknak a HDFS, a fonal, a MapReduce, a Pig, a Hive, a HBase, az Oozie, a Flume és a Sqoop szakértőivé válni, valós idejű felhasználási esetek felhasználásával a kiskereskedelem, a szociális média, a repülés, az idegenforgalom és a pénzügy területén.

Van egy kérdésünk? Kérjük, említse meg a megjegyzések részben, és kapcsolatba lépünk Önnel.