A Hadoop, az önmagának platformjává vált adatfeldolgozási keretrendszer még jobbá válik, ha jó alkatrészek vannak hozzá kapcsolva. A Hadoop egyes hiányosságai, például a Hadoop MapReduce komponense, lassú hírnévnek örvendenek a valós idejű adatelemzés során.
Írja be az Apache Spark-ot, a Hadoop-alapú adatfeldolgozó motort, amely mind a kötegelt, mind a streaming munkaterhelésekhez lett kifejlesztve, most már 1.0-s verziójában, és olyan funkciókkal van ellátva, amelyek példázzák, hogy a Hadoop milyen típusú munkák közé tartozik. A Spark a meglévő Hadoop-fürtök tetején fut, hogy továbbfejlesztett és további funkciókat biztosítson.
Vizsgáljuk meg a szikra főbb jellemzőit, valamint a Hadoop és .
Az Apache Spark legfontosabb előnyei:
A Spark fantasztikus jellemzői:
- Hadoop integráció - A Spark képes a HDFS-ben tárolt fájlokkal dolgozni.
- Spark interaktív héja - A Spark Scalában íródott, és a Scala tolmács saját verziója van.
- Spark analitikus lakosztálya - A Spark eszközökkel rendelkezik az interaktív lekérdezéselemzéshez, a nagyméretű grafikonfeldolgozáshoz és elemzéshez, valamint a valós idejű elemzéshez.
- Rugalmas elosztott adatkészletek (RDD-k) - Az RDD-k elosztott objektumok, amelyek memóriában tárolhatók a számítási csomópontok fürtjébe. Ezek a Sparkban használt elsődleges adatobjektumok.
- Elosztott üzemeltetők - A MapReduce mellett sok más operátor is használható az RDD-n.
Az Apache Spark és a Hadoop együttes használatának előnyei:
java program a mysql adatbázishoz való csatlakozáshoz
Az Apache Spark illeszkedik a Hadoop nyílt forráskódú közösségbe, a Hadoop Distributed File System (HDFS) tetejére építve. A Spark azonban nincs kötve a kétlépcsős MapReduce paradigmához, és akár 100-szor gyorsabb teljesítményt ígér bizonyos alkalmazásoknál, mint a Hadoop MapReduce.
Jól alkalmazható gépi tanulási algoritmusokhoz - A Spark primitíveket kínál a memóriában lévő fürt számításhoz, amely lehetővé teszi a felhasználói programok számára, hogy adatokat töltsenek be egy fürt memóriájába, és többször lekérdezzék azokat.
Fuss 100-szor gyorsabban - A Spark elemző szoftver gyorsíthatja a Hadoop adatfeldolgozó platformon futó feladatokat is. A „Hadoop Swiss Army kés” névre keresztelt Apache Spark lehetőséget nyújt olyan adatelemző feladatok létrehozására, amelyek 100-szor gyorsabban futtathatók, mint a szokásos Apache Hadoop MapReduce-on futók. A MapReduce-t széles körben bírálták mint szűk keresztmetszetet a Hadoop-klaszterekben, mert kötegelt módban végez feladatokat, ami azt jelenti, hogy az adatok valós idejű elemzése nem lehetséges.
A MapReduce alternatívája - A Spark a MapReduce alternatívája. A munkákat rövid, legfeljebb öt másodpercre eső mikrokötegekben hajtja végre. Ez nagyobb stabilitást nyújt, mint a valós idejű, folyamorientált Hadoop keretrendszerek, mint például a Twitter Storm. A szoftver különféle feladatokhoz használható, például az élő adatok folyamatos elemzéséhez, és a szoftverkönyvtárnak köszönhetően számítási szempontból mélyebb feladatokhoz, beleértve a gépi tanulást és a grafikonfeldolgozást.
Több nyelv támogatása - A Spark használatával a fejlesztők Java-ban, Scalában vagy Pythonban írhatnak adatelemző feladatokat, több mint 80 magas szintű operátor használatával.
felülbírálás vs túlterhelés c ++
Könyvtári támogatás - A Spark könyvtárait úgy tervezték, hogy kiegészítsék az agresszívebben feltárt feldolgozási feladatok típusait a Hadoop legújabb, kereskedelmileg támogatott telepítéseivel. Az MLlib számos olyan gépi tanulási algoritmust valósít meg, mint például a naiv Bayesi osztályozás vagy a Spark Streaming klaszterezése lehetővé teszi a több forrásból befogadott adatok nagysebességű feldolgozását, a GraphX pedig a gráf adatok kiszámítását.
Stabil API - Az 1.0 verzióval az Apache Spark stabil API-t (alkalmazásprogramozási felületet) kínál, amelyet a fejlesztők használhatnak a Sparkkal való interakcióra saját alkalmazásukon keresztül. Ez segít a Storm könnyebb használatában a Hadoop alapú telepítésben.
SPARK SQL komponens - Spark SQL komponens a strukturált adatok eléréséhez, lehetővé teszi az adatok lekérdezését a strukturálatlan adatok mellett az elemzési munkában. A Spark SQL, amely jelenleg csak alfában van, lehetővé teszi az SQL-szerű lekérdezések futtatását az Apache Hive-ban tárolt adatokkal szemben. Az adatok kibontása a Hadoop-ból SQL-lekérdezésekkel a Hadoop körül felbukkanó valós idejű lekérdezési funkció másik változata.
Apache Spark kompatibilitás a Hadoop-tal [HDFS, HBASE és FONAL] - Az Apache Spark teljes mértékben kompatibilis a Hadoop elosztott fájlrendszerével (HDFS), valamint más Hadoop-összetevőkkel, mint például a YARN (Yet Another Resource Negotiator) és a HBase elosztott adatbázissal.
Ipari alkalmazók:
Az olyan informatikai cégek, mint a Cloudera, a Pivotal, az IBM, az Intel és a MapR mind a Sparkot felhajtották Hadoop-rakományaikba. A Spark néhány fejlesztője által alapított Databricks cég kereskedelmi támogatást kínál a szoftverhez. Többek között a Yahoo és a NASA is használja a szoftvert a napi adatműveletekhez.
Következtetés:
Amit a Spark kínál, az mindenképpen nagy vonzerőt jelent a Hadoop felhasználói és kereskedelmi forgalmazói számára. Azokat a felhasználókat, akik a Hadoop megvalósítását kívánják megvalósítani, és akik számos elemzési rendszerüket már a Hadoop köré építették, vonzza az az ötlet, hogy a Hadoopot valós idejű feldolgozó rendszerként lehessen használni.
A Spark 1.0 egy másik változatosságot biztosít számukra, hogy támogassák vagy beépítsék a saját tulajdonú elemeket. Valójában a Hadoop három legnagyobb gyártója közül az egyik, a Cloudera, a Cloudera Enterprise kínálatán keresztül már kereskedelmi támogatást nyújtott a Spark számára. A Hortonworks a Sparkot is kínálta Hadoop disztribúciójának részeként. A Spark nagyvállalatok általi nagy léptékű megvalósítása jelzi sikerét és lehetőségeit a valós idejű feldolgozás terén.
Van egy kérdésünk? Említse meg őket a megjegyzések részben, és mi kapcsolatba lépünk Önnel.
Kapcsolódó hozzászólások:
php elemzi a stringet a tömbhöz