Apache Flume oktatóanyag: Twitter adatfolyam



Ez az Apache Flume oktatóblog elmagyarázza az Apache Flume alapjait és jellemzőit. Ezenkívül bemutatja a Twitter streaminget az Apache Flume segítségével.

Ebben az Apache Flume oktatóblogban megértjük, hogy a Flume hogyan segít a különböző forrásokból származó adatok streamingjében. De előtte értsük meg az adatok bevitelének fontosságát. Az adatok bevitele a kezdeti és fontos lépés az adatok feldolgozása és elemzése, majd az üzleti értékek levezetése érdekében. Több forrás létezik, amelyekből adatokat gyűjtenek egy szervezetben.

Beszéljünk egy másik fontos okról, amiért Flume olyan népszerűvé vált. Remélem, ismerős lehet , amelyet rendkívüli módon használnak az iparban, mivel mindenféle adatot képes tárolni. A Flume könnyen integrálható a Hadoopszal, és strukturálatlan, valamint félig strukturált adatokat dobhat a HDFS-re, ezzel kiegészítve a Hadoop erejét. Ezért az Apache Flume fontos része a Hadoop ökoszisztémának.





Ebben az Apache Flume oktatóblogban a következőkre fogunk kitérni:



Ezt a Flume oktatóanyagot azzal kezdjük, hogy megbeszéljük, mi az Apache Flume. Ezután haladva megértjük a Flume használatának előnyeit.

Apache Flume oktatóanyag: Bevezetés az Apache Flume-ba

Apache Flume logó - Apache Flume oktatóanyag - EdurekaAz Apache Flume egy eszköz a HDFS-ben történő adatbevitelhez. Nagy mennyiségű adatfolyamot gyűjt, összesít és szállít, például naplófájlokat, eseményeket különböző forrásokból, például hálózati forgalomból, közösségi médiából, e-mail üzenetekből stb. HDFS-be.A Flume rendkívül megbízható és elosztott.

A Flume tervezésének fő gondolata az, hogy streaming adatokat gyűjtsön a különböző webszerverekről a HDFS-be. Az adatfolyamok adatfolyamain alapuló egyszerű és rugalmas architektúrával rendelkezik. Hibatűrő és megbízhatósági mechanizmust biztosít a hibatűréshez és a hibák helyreállításához.



Miután megértette, mi is a Flume, most lépjünk előre ebben a Flume Tutorial blogban, és ismerjük meg az Apache Flume előnyeit. Ezután haladva megnézzük a Flume architektúráját és megpróbáljuk megérteni, hogyan működik alapvetően.

mi az ios fejlesztő

Apache Flume oktatóanyag: Az Apache Flume előnyei

Az Apache Flume számos előnnyel jár, ami jobb választást jelent másokhoz képest. Az előnyök a következők:

  • A Flume méretezhető, megbízható, hibatűrő és testreszabható különböző forrásokhoz és mosogatókhoz.
  • Az Apache Flume adatokat központosított tárolókban tárolhat (vagyis az adatokat egyetlen áruházból szolgáltatja), például a HBase és a HDFS.
  • A Flume vízszintesen méretezhető.
  • Ha az olvasási sebesség meghaladja az írási sebességet, a Flume folyamatos adatáramlást biztosít az olvasási és írási műveletek között.
  • A Flume megbízható üzenetküldést biztosít. A Flume tranzakciói csatorna-alapúak, ahol minden üzenethez két tranzakciót (egy feladó és egy vevő) tartanak fenn.
  • A Flume használatával több szerverről tudunk adatokat bevinni a Hadoop-ba.
  • Megbízható és terjesztett megoldást nyújt számunkra, és segítségünkre van nagy mennyiségű adatkészlet, például a Facebook, a Twitter és az e-kereskedelem webhelyeinek gyűjtése, összesítése és mozgatása.
  • Segít abban, hogy HDFS-ben különböző forrásokból, például hálózati forgalomból, közösségi médiából, e-mail üzenetekből, naplófájlokból stb.
  • Támogatja a források és céltípusok nagy csoportját.

Ez az architektúra az Apache Flume számára nyújt ilyen előnyöket. Most, hogy ismerjük az Apache Flume előnyeit, előreléphetünk és megérthetjük az Apache Flume architektúráját.

Apache Flume oktatóanyag: Flume Architecture

Most pedig értsük meg a Flume architektúráját az alábbi ábra alapján:

Van egy Flume ügynök, amely a különböző adatforrásokból származó adatfolyamokat HDFS-be emészti. A diagram alapján könnyen megértheti, hogy a webszerver jelzi az adatforrást. A Twitter az adatfolyamok egyik leghíresebb forrása.

A füstölő szer 3 komponensből áll: forrás, mosogató és csatorna.

    1. Forrás : Elfogadja a bejövő áramvonal adatait, és az adatokat a csatornában tárolja.
    2. Csatorna : Általában az olvasási sebesség nagyobb, mint az írás sebessége. Ezért szükségünk van némi pufferre, hogy megfeleljen az olvasási és írási sebesség különbségnek. Alapvetően a puffer közvetítő tárolóként működik, amelyek ideiglenesen tárolják az átvitt adatokat, és így megakadályozzák az adatvesztést. Hasonlóképpen, a csatorna helyi tárolóként vagy ideiglenes tárolóként működik az adatforrás és a HDFS-ben lévő állandó adatok között.
    3. Mosogató : Ezután az utolsó összetevőnk, azaz a Sink összegyűjti az adatokat a csatornáról, és véglegesen elkötelezi vagy beírja az adatokat a HDFS-be.

Most, hogy tudjuk, hogyan működik az Apache Flume, vessünk egy pillantást egy olyan gyakorlati alkalmazásra, ahol elsüllyesztjük a Twitter adatait, és eltároljuk a HDFS-ben.

Apache Flume oktatóanyag: Twitter adatok továbbítása

Ebben a gyakorlatban az adatokat a Twitterről fogjuk streamelni a Flume segítségével, majd az adatokat HDFS-ben tároljuk az alábbi képen látható módon.

Az első lépés egy Twitter alkalmazás létrehozása. Ehhez először ezt az URL-t kell meglátogatnia: https://apps.twitter.com/ és jelentkezzen be Twitter-fiókjába. Lépjen az alkalmazásfül létrehozásához az alábbi képen látható módon.

Ezután hozzon létre egy alkalmazást az alábbi képen látható módon.

Az alkalmazás létrehozása után megtalálja a Key & Access tokent. Másolja a kulcsot és a hozzáférési tokent. Ezeket a tokeneket továbbítjuk a Flume konfigurációs fájlunkban, hogy csatlakozzunk ehhez az alkalmazáshoz.

Most hozzon létre egy flume.conf fájlt a flume gyökérkönyvtárában, az alábbi képen látható módon. Amint megbeszéltük, a Flume architektúrájában konfiguráljuk a Forrás, a Mosogató és a Csatornánkat. Forrásunk a Twitter, ahonnan továbbítjuk az adatokat, a Sink pedig HDFS, ahová az adatokat írjuk.

Forráskonfigurációban a Twitter forrás típust adjuk át org.apache.flume.source.twitter.TwitterSource. Ezután átadjuk mind a négy tokent, amelyet a Twitter-től kaptunk. Végül a forráskonfigurációban átadjuk azokat a kulcsszavakat, amelyekre be akarjuk tölteni a tweeteket.

A Sink konfigurációban a HDFS tulajdonságokat fogjuk konfigurálni. Beállítjuk a HDFS elérési útját, az írási formátumot, a fájltípust, a kötegelt méretet stb. Végül a memória csatornát fogjuk beállítani az alábbi képen látható módon.

Most mindannyian végrehajtásra készülünk. Menjünk előre, és hajtsuk végre ezt a parancsot:

$ FLUME_HOME / bin / flume-ng ügynök --conf ./conf/ -f $ FLUME_HOME / flume.conf

Miután egy ideig végrehajtotta ezt a parancsot, majd kiléphet a terminálból a CTRL + C billentyűkombinációval. Ezután folytathatja a Hadoop könyvtárban, és ellenőrizheti az említett elérési utat, függetlenül attól, hogy a fájl létrejön-e vagy sem.

mi a hadoopban a füst

Töltse le a fájlt, és nyissa meg. Kap valamit az alábbi képen látható módon.

Remélem, hogy ez a blog informatív és hozzáadott értéket jelent Önnek. Ha érdekel, hogy többet tudjon meg, átélheti ezt amely a Big Data-ról és arról szól, hogy Hadoop hogyan oldja meg a Big Data-val kapcsolatos kihívásokat.

Most, hogy megértette az Apache Flume-t, nézze meg a az Edureka, egy megbízható online tanulási vállalat, amelynek több mint 250 000 elégedett tanulóval rendelkező hálózata elterjedt az egész világon. Az Edureka Big Data Hadoop tanúsító tanfolyam segít a tanulóknak a HDFS, a fonal, a MapReduce, a Pig, a Hive, a HBase, az Oozie, a Flume és a Sqoop szakértőivé válni, valós idejű felhasználási esetek felhasználásával a kiskereskedelem, a szociális média, a repülés, az idegenforgalom és a pénzügy területén.

Van egy kérdésünk? Kérjük, említse meg a megjegyzések részben, és kapcsolatba lépünk Önnel.