APACHE SPARK HADOOP-TAL - MIÉRT SZÁMÍT?

A Hadoop, az önmagának platformjává vált adatfeldolgozási keretrendszer még jobbá válik, ha jó alkatrészek vannak hozzá kapcsolva. A Hadoop egyes hiányosságai, például a Hadoop MapReduce komponense, lassú hírnévnek örvendenek a valós idejű adatelemzés során.

Írja be az Apache Spark-ot, a Hadoop-alapú adatfeldolgozó motort, amely mind a kötegelt, mind a streaming munkaterhelésekhez lett kifejlesztve, most már 1.0-s verziójában, és olyan funkciókkal van ellátva, amelyek példázzák, hogy a Hadoop milyen típusú munkák közé tartozik. A Spark a meglévő Hadoop-fürtök tetején fut, hogy továbbfejlesztett és további funkciókat biztosítson.

Vizsgáljuk meg a szikra főbb jellemzőit, valamint a Hadoop és .

Az Apache Spark legfontosabb előnyei:

img2-R

A Spark fantasztikus jellemzői:

Hadoop integráció - A Spark képes a HDFS-ben tárolt fájlokkal dolgozni.
Spark interaktív héja - A Spark Scalában íródott, és a Scala tolmács saját verziója van.
Spark analitikus lakosztálya - A Spark eszközökkel rendelkezik az interaktív lekérdezéselemzéshez, a nagyméretű grafikonfeldolgozáshoz és elemzéshez, valamint a valós idejű elemzéshez.
Rugalmas elosztott adatkészletek (RDD-k) - Az RDD-k elosztott objektumok, amelyek memóriában tárolhatók a számítási csomópontok fürtjébe. Ezek a Sparkban használt elsődleges adatobjektumok.
Elosztott üzemeltetők - A MapReduce mellett sok más operátor is használható az RDD-n.

Az Apache Spark és a Hadoop együttes használatának előnyei:

java program a mysql adatbázishoz való csatlakozáshoz

Az Apache Spark illeszkedik a Hadoop nyílt forráskódú közösségbe, a Hadoop Distributed File System (HDFS) tetejére építve. A Spark azonban nincs kötve a kétlépcsős MapReduce paradigmához, és akár 100-szor gyorsabb teljesítményt ígér bizonyos alkalmazásoknál, mint a Hadoop MapReduce.
Jól alkalmazható gépi tanulási algoritmusokhoz - A Spark primitíveket kínál a memóriában lévő fürt számításhoz, amely lehetővé teszi a felhasználói programok számára, hogy adatokat töltsenek be egy fürt memóriájába, és többször lekérdezzék azokat.
Fuss 100-szor gyorsabban - A Spark elemző szoftver gyorsíthatja a Hadoop adatfeldolgozó platformon futó feladatokat is. A „Hadoop Swiss Army kés” névre keresztelt Apache Spark lehetőséget nyújt olyan adatelemző feladatok létrehozására, amelyek 100-szor gyorsabban futtathatók, mint a szokásos Apache Hadoop MapReduce-on futók. A MapReduce-t széles körben bírálták mint szűk keresztmetszetet a Hadoop-klaszterekben, mert kötegelt módban végez feladatokat, ami azt jelenti, hogy az adatok valós idejű elemzése nem lehetséges.
A MapReduce alternatívája - A Spark a MapReduce alternatívája. A munkákat rövid, legfeljebb öt másodpercre eső mikrokötegekben hajtja végre. Ez nagyobb stabilitást nyújt, mint a valós idejű, folyamorientált Hadoop keretrendszerek, mint például a Twitter Storm. A szoftver különféle feladatokhoz használható, például az élő adatok folyamatos elemzéséhez, és a szoftverkönyvtárnak köszönhetően számítási szempontból mélyebb feladatokhoz, beleértve a gépi tanulást és a grafikonfeldolgozást.
Több nyelv támogatása - A Spark használatával a fejlesztők Java-ban, Scalában vagy Pythonban írhatnak adatelemző feladatokat, több mint 80 magas szintű operátor használatával.
felülbírálás vs túlterhelés c ++
Könyvtári támogatás - A Spark könyvtárait úgy tervezték, hogy kiegészítsék az agresszívebben feltárt feldolgozási feladatok típusait a Hadoop legújabb, kereskedelmileg támogatott telepítéseivel. Az MLlib számos olyan gépi tanulási algoritmust valósít meg, mint például a naiv Bayesi osztályozás vagy a Spark Streaming klaszterezése lehetővé teszi a több forrásból befogadott adatok nagysebességű feldolgozását, a GraphX pedig a gráf adatok kiszámítását.
Stabil API - Az 1.0 verzióval az Apache Spark stabil API-t (alkalmazásprogramozási felületet) kínál, amelyet a fejlesztők használhatnak a Sparkkal való interakcióra saját alkalmazásukon keresztül. Ez segít a Storm könnyebb használatában a Hadoop alapú telepítésben.
SPARK SQL komponens - Spark SQL komponens a strukturált adatok eléréséhez, lehetővé teszi az adatok lekérdezését a strukturálatlan adatok mellett az elemzési munkában. A Spark SQL, amely jelenleg csak alfában van, lehetővé teszi az SQL-szerű lekérdezések futtatását az Apache Hive-ban tárolt adatokkal szemben. Az adatok kibontása a Hadoop-ból SQL-lekérdezésekkel a Hadoop körül felbukkanó valós idejű lekérdezési funkció másik változata.
Apache Spark kompatibilitás a Hadoop-tal [HDFS, HBASE és FONAL] - Az Apache Spark teljes mértékben kompatibilis a Hadoop elosztott fájlrendszerével (HDFS), valamint más Hadoop-összetevőkkel, mint például a YARN (Yet Another Resource Negotiator) és a HBase elosztott adatbázissal.

Ipari alkalmazók:

Az olyan informatikai cégek, mint a Cloudera, a Pivotal, az IBM, az Intel és a MapR mind a Sparkot felhajtották Hadoop-rakományaikba. A Spark néhány fejlesztője által alapított Databricks cég kereskedelmi támogatást kínál a szoftverhez. Többek között a Yahoo és a NASA is használja a szoftvert a napi adatműveletekhez.

Következtetés:

Amit a Spark kínál, az mindenképpen nagy vonzerőt jelent a Hadoop felhasználói és kereskedelmi forgalmazói számára. Azokat a felhasználókat, akik a Hadoop megvalósítását kívánják megvalósítani, és akik számos elemzési rendszerüket már a Hadoop köré építették, vonzza az az ötlet, hogy a Hadoopot valós idejű feldolgozó rendszerként lehessen használni.

A Spark 1.0 egy másik változatosságot biztosít számukra, hogy támogassák vagy beépítsék a saját tulajdonú elemeket. Valójában a Hadoop három legnagyobb gyártója közül az egyik, a Cloudera, a Cloudera Enterprise kínálatán keresztül már kereskedelmi támogatást nyújtott a Spark számára. A Hortonworks a Sparkot is kínálta Hadoop disztribúciójának részeként. A Spark nagyvállalatok általi nagy léptékű megvalósítása jelzi sikerét és lehetőségeit a valós idejű feldolgozás terén.

Van egy kérdésünk? Említse meg őket a megjegyzések részben, és mi kapcsolatba lépünk Önnel.

Kapcsolódó hozzászólások:

php elemzi a stringet a tömbhöz

Apache Spark Hadoop-tal - Miért számít?

Az Apache Spark és a Hadoop közötti nagy léptékű bevezetés a legjobb vállalatok részéről azt jelzi, hogy valós idejű feldolgozásról van szó.

Az Apache Spark legfontosabb előnyei:

A Spark fantasztikus jellemzői:

Az Apache Spark és a Hadoop együttes használatának előnyei:

Ipari alkalmazók:

Következtetés:

Kategóriák

Popular Articles

Mi a JavaScript MVC architektúra és hogyan működik?

Minden, amit tudnia kell az alkalmazás terheléselosztóról

Hogyan lehet megvalósítani az illékony kulcsszót a Java-ban?

A CSS átmenetének megvalósítása: Az animációk készen vannak

Q tanulás: Mindössze annyit kell tudni a megerősítő tanulásról

Mi az a Kotlin? - Ismerje meg Kotlin-t a Scratch-ból

Tableau Dashboard - Az adatok megjelenítésének újradefiniálása

Kerek Robin ütemezése a C programozásban

Mi a torzítás-eltérés a gépi tanulásban?

Splunk tudásobjektumok: Splunk események, eseménytípusok és címkék

Informatica oktatóanyag: Az Informatica „Inside Out” megértése

Git vs Github - A különbségek demisztifikálása