Big Data AWS-ben - intelligens megoldás a Big Data számára



Ez a cikk segít megérteni, hogy az AWS milyen okosan bánik a Big Data-val. Ez azt is megmutatja, hogy az AWS hogyan tudja könnyedén megoldani a Big Data kihívásait.

A Big Data ötlete egyszerűen nem új, mindenhol megtalálható. A Big Data hatása mindenütt jelen van, az üzleti élettől a tudományig, a kormánytól a művészetekig és így tovább. Nincs jobb társ, mint a Big Data feldolgozásához és elemzéséhez. Ebben a cikkben megmutatom, hogy az AWS miként kezeli a Big Data kihívásait, és az alábbiak:

Mi a Big Data?

nagy adatok jellemzői





A Big data nagy volumenű, nagy sebességű és / vagy nagy változatosságú információs eszköznek tekinthető, amely költséghatékony, innovatív információfeldolgozási formákat igényel, amelyek lehetővé teszik a jobb betekintést, a döntéshozatalt és a folyamat automatizálását.

A Big Data 5 fontos V-ből áll, amelyek meghatározzák a Big Data jellemzőit. Beszéljük meg ezeket, mielőtt áttérünk az AWS-re.



Mi az AWS?

sok különböző felhőalapú számítástechnikai termékből és szolgáltatásból áll. A rendkívül jövedelmező Amazon részleg a biztonság mellett szervereket, tárolókat, hálózatokat, távoli számítástechnikát, e-maileket, mobil fejlesztéseket biztosít. Továbbá. Az AWS két fő termékből áll: az EC2-ből, az Amazon virtuális gép-szolgáltatásából és az S3-ból, az Amazon tárolórendszeréből. Olyan nagy és jelen van a számítástechnikai világban, hogy most már legalább tízszer akkora, mint legközelebbi versenytársa, és olyan népszerű webhelyeket üzemeltet, mint a Netflix és az Instagram.

.

Az AWS világszerte 12 globális régióra van felosztva, amelyek mindegyikének több rendelkezésre állási zónája van, ahol a szerverei találhatók.Ezek a kiszolgált régiók fel vannak osztva annak érdekében, hogy a felhasználók földrajzi korlátokat állíthassanak be szolgáltatásaikra, de biztonságot nyújtsanak azáltal, hogy diverzifikálják az adatok fizikai helyeit.



Miért nagy adat az AWS-ben?

Tudósok, fejlesztők és más, különböző területekről rajongó technológiák rajongói kihasználják az AWS előnyeit, hogy nagy adatelemzéseket végezzenek, és megfeleljenek a növekvő digitális információk Vs kritikus kihívásainak. Az AWS a felhőalapú számítástechnikai szolgáltatások portfólióját kínálja a nagyméretű adatok kezeléséhez a költségek jelentős csökkentésével, a kereslet kielégítéséhez szükséges méretezéssel és az innováció sebességének növelésével.

Az Amazon Web Services a teljesen integrált portfólió számítási felhőszolgáltatások. Ezenkívül segíti a big data alkalmazások felépítését, biztonságát és telepítését. Ezenkívül az AWS használatával nincs szüksége hardverre a beszerzéshez és az infrastruktúrához a karbantartáshoz és méretezéshez. Emiatt erőforrásait új betekintések feltárására összpontosíthatja.Mivel az új funkciókat folyamatosan adják hozzá, mindig képes lesz kihasználni a legújabb technológiákat anélkül, hogy hosszú távú befektetési kötelezettségeket kellene vállalnia.

Hogyan oldhatja meg az AWS a Big Data kihívásokat?

AWS megoldások a Big Data számára

Az AWS számos megoldással rendelkezik minden fejlesztési és telepítési célra. Az AWS az adattudomány és a nagy adat területén a legutóbbi fejleményekkel is előállt a nagy adatkezelés különböző aspektusaiban. Mielőtt az eszközökhöz ugranánk, ismerjük meg a Big Data különböző aspektusait, amelyekre az AWS megoldásokat tud nyújtani.

hatókörfeloldási operátor c ++ nyelven
  1. Adatbevitel
    A nyers adatok - tranzakciók, naplók, mobileszközök és egyebek - összegyűjtése az első kihívás, amelyet sok szervezet szembesít a nagy adatok kezelésével. Egy jó nagy adatplatform megkönnyíti ezt a lépést, lehetővé téve a fejlesztők számára, hogy a strukturáltól a strukturálatlanig - bármilyen sebességgel - valós időben, kötegeltként sokféle adatot vegyenek fel.

  2. Adatok tárolása
    Bármely nagy adatplatformnak biztonságos, méretezhető és tartós adattárra van szüksége az adatok tárolásához a feladatok feldolgozása előtt vagy után is. Az Ön igényeitől függően szükség lehet ideiglenes tárolókra is az átvitel során.

  3. Adatfeldolgozás
    Ez az a lépés, ahol az adatátalakulás a nyers állapotából fogyasztható formátumba történik - általában válogatás, összesítés, összekapcsolás és még fejlettebb funkciók és algoritmusok végrehajtása révén. Az így létrejött adathalmazok további feldolgozás céljából tárolásra kerülnek, vagy üzleti intelligencia és adatmegjelenítő eszközök révén elérhetővé válnak fogyasztás céljából.

  4. Megjelenítés

    A nagy adatok arról szólnak, hogy nagy értékű, kiválasztható betekintést nyerjenek az adateszközökből. Ideális esetben az adatok elérhetőek az érdekelt felek számára az önkiszolgáló üzleti intelligencia és az agilis adatmegjelenítő eszközök révén, amelyek lehetővé teszik az adatkészletek gyors és egyszerű feltárását.

AWS Tools for Big Data

Az előző szakaszokban a Big Data mezőket néztük meg, ahol az AWS megoldásokat tud nyújtani. Ezenkívül az AWS számos eszközzel és szolgáltatással rendelkezik az arzenáljában, hogy az ügyfelek számára lehetővé tegye a Big Data képességeit.

Vizsgáljuk meg az AWS által kínált különféle megoldásokat a Big Data kezelésének különböző szakaszainak kezelésére

Lenyelés

  1. Kinézis

    Az Amazon Kinesis Firehose egy teljesen felügyelt szolgáltatás, amely valós idejű adatfolyam-adatokat továbbít közvetlenül az Amazon S3-ra. A Kinesis Firehose automatikusan méretezi a streaming adatok mennyiségének és átviteli sebességének, és nem igényel folyamatos adminisztrációt. A Kinesis Firehose konfigurálható a streaming adatok átalakítására, mielőtt azokat az Amazon S3-ban tárolná.

  2. Hógolyó
    Te tudod használni AWS Hógolyó a tömeges adatok biztonságos és hatékony migrálása a helyszíni tároló platformokról és a Hadoop-fürtökből az S3 vödrökbe. Miután létrehozott egy munkát az AWS Management Console-ban, automatikusan kap egy Snowball készüléket. Miután megérkezett egy Hógolyó, csatlakoztassa a helyi hálózathoz, telepítse a Snowball klienst a helyszíni adatforrásra, majd a Snowball kliens segítségével válassza ki és helyezze át a fájlkönyvtárakat a Hógolyó eszközre.

Tárolás

  1. Amazon S3

Amazon S3 egy biztonságos, nagymértékben méretezhető, tartós objektumtároló, milliszekundumos késéssel az adatokhoz való hozzáféréshez. Az S3 bármilyen típusú adatot bárhonnan tárolhat - webhelyek és mobilalkalmazások, vállalati alkalmazások, valamint IoT-érzékelőkből vagy eszközökből származó adatok. Bármilyen adatmennyiséget tárolhat és visszakereshet, páratlan rendelkezésre állás mellett, és az alapoktól kezdve a tartósság 99,99999999999% -át (11 kilenc) biztosítja.

2. AWS ragasztó

A Glue egy teljesen felügyelt szolgáltatás, amely adatkatalógust biztosít, hogy az adat-tóban található adatok felfedezhetők legyenek. Ezenkívül képes kibontani, átalakítani és betölteni (ETL) az adatok elemzésre való felkészítéséhez. Ezenkívül a beépített adatkatalógus olyan, mint egy állandó metaadat-tároló az összes adateszköz számára, amely az összes adatot egyetlen nézetben kereshetővé és lekérdezhetővé teszi.

Feldolgozás

  1. EMR
    Nagy adatfeldolgozáshoz a Spark és a Hadoop segítségével, Amazon EMR felügyelt szolgáltatást nyújt, amely megkönnyíti, gyors és költséghatékony a hatalmas mennyiségű adat feldolgozását. Ezenkívül az EMR 19 különböző nyílt forráskódú projektet támogat, beleértve a következőket: Hadoop , Szikra , és Továbbá mellékelték az irányított EMR notebookokat az adatmérnöki, az adattudományi fejlesztési és az együttműködési célokra.

  2. Vörös váltás
    Adattároláshoz, amazon A Redshift lehetőséget nyújt összetett, elemző lekérdezések futtatására petabájt strukturált adatokkal szemben. Továbbá ide tartozik Vöröseltolódási spektrum amely SQL-lekérdezéseket futtat közvetlenül az S3 strukturált vagy strukturálatlan adatok Exabyte-jaival szemben, szükségtelen adatmozgatás nélkül.

Vizualizációk

  1. Amazon QuickSight

    Irányítópultokhoz és vizualizációkhoz az Amazon Quicksight gyors, felhőalapú üzleti elemzési szolgáltatást nyújt. Ez megkönnyíti a lenyűgöző látványtervek és gazdag irányítópultok készítését. Ezenkívül bármilyen böngészőből vagy mobileszközről elérheti őket.

Bemutató - Az ausztráliai veszélyeztetett növény- és állatfajok adatainak elemzése.

Ebben a bemutatóban Ausztrália államaiból és területeiről származó veszélyeztetett növény- és állatfajok mintadatát fogjuk felhasználni. Itt létrehozunk egy EMR-fürtöt, és konfiguráljuk többlépcsős Apache Hive-feladatok futtatására. Az EMR fürtbe Apache Hive lesz telepítve. Ez a fürt az EMRFS-t fogja használni fájlrendszerként, így az adatbeviteli és a kimeneti helyek egy S3 vázlathoz vannak hozzárendelve. A fürt ugyanazt az S3 vödröt fogja használni a naplófájlok tárolásához is.

Most számos EMR lépést fogunk létrehozni a fürtben az adatminták feldolgozásához. Ezen lépések mindegyike futtat egy Hive parancsfájlt, és a végleges kimenetet az S3 vödörbe menti. Ezek a lépések MapReduce naplókat generálnak, és ez azért van, mert a Hive parancsokat lefuttatják MapReduce feladatokra futás közben. Az egyes lépések naplófájljait összesítik az általa kikelt tárolókból.

Minta adat

Az ehhez a felhasználási esethez tartozó mintaadatkészlet a Az ausztrál kormány nyílt adatokkal foglalkozó webhelye . Ez az adatsor Ausztrália különböző államaiból és területeiről származó fenyegetett állat- és növényfajokról szól. Az adatkészlet és a CSV-fájl mezőinek leírása megtekinthető és letölthető itt .

Feldolgozási lépések

Az első EMR job lépés itt egy Hive tábla létrehozását jelenti az S3 alapul szolgáló forrásfájl sémájaként. A munka második lépésében most sikeres lekérdezést futtatunk az adatokkal szemben. Ehhez hasonlóan futtatunk egy harmadik és negyedik lekérdezést is.

Ezt a négy lépést megismételjük néhányszor egy óra alatt, egy többlépcsős kötegelt feladat egymást követő futtatásait szimulálva. Valóságos forgatókönyv szerint azonban az egyes kötegelt futtatások közötti időkülönbség normálisan sokkal nagyobb lehet. Az egymást követő futások közötti kis időbeli különbség célja a tesztelés gyorsítása.

S3 vödör és mappák

Az EMR klaszter létrehozása előtt itt létre kellett hoznunk egy S3 vödröt a fájlok tárolására. Példánkban ezt a vödröt „arvind1-bucket” -nek nevezzük. A vödör alatti mappák az S3 AWS Console alatt láthatók:

mysql bemutató kezdőknek példákkal

  • Az adatbeviteli mappa tartalmazza a minta adatokat

  • A szkriptek mappa tartalmazza a Hive parancsfájlokat az EMR feladat lépéseihez

  • A kimeneti mappa nyilvánvalóan fogja tárolni a Hive program kimenetét

  • Az EMR-fürt a naplók mappát használja a naplófájlok mentéséhez.

Hive Scripts for EMR Job Steps

1. Ez a munkalépés egy Hive parancsfájlt futtategy külső Hive-tábla létrehozásához. Ez a táblázat az alapul szolgáló CSV-adatfájl táblázatos sémáját írja le. Ennek szkriptje a következő:

KÜLSŐ TÁBLÁZAT LÉTREHOZÁSA 'fenyegetett_fajok' ('tudományos név' karakterlánc, 'általános név' karakterlánc, 'jelenlegi tudományos név' karakterlánc, 'veszélyeztetett állapot' karakterlánc, 'act' karakterlánc, 'nsw' karakterlánc, 'nt' karakterlánc, 'qld' húr, `sa` húr,` tas` húr, `vic` húr,` wa` húr, `aci` húr,` cki` húr, `ci` húr,` csi` húr, `jbt` húr,` nfi` húr, `hmi` húr,` aat` húr, `cma` húr,` felsorolt ​​sprot taxonid` bigint, `jelenlegi sprot taxonid` bigint,` királyság «húr,` osztály` húr, `profil` húr,` kivont dátum` karakterlánc, 'nsl név' karakterlánc, 'család' karakterlánc, 'nemzetség' karakterlánc, 'faj' karakterlánc, 'infraspecifikus rangsor' karakterlánc, 'infraspecifikus' karakterlánc, 'faj szerzői karakterlánc,' infraspecifikus szerző 'karakterlánc) Lezárva: ',' STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3: // arvind1-bucket / script

2. Ez a munkalépés egy lekérdezést futtat Új-Dél-Wales (NSW) államban az öt legnagyobb veszélyeztetett faj kiszámításához. A Hive lekérdezési fájl neve endangeredSpeciesNSW.q és az alább látható:

KIVÁLASZTÁS fajok, COUNT (nsw) AS__veszélyeztetett_fajok száma FROM fenyegetett_faj WHERE (nsw = 'Igen' VAGY nsw = 'Veszélyeztetett') ÉS 'Veszélyeztetett állapot' = 'Veszélyeztetett' CSOPORT fajok szerint, amelyeknek száma (nsw)> 1 RENDELÉS MEGADÁSI KOR

3.Ez a munkalépés egy lekérdezést futtat a veszélyeztetett növényfajok összes számának kiszámításához az egyes ausztráliai növénycsaládokhoz. A Hive lekérdezési fájl neveendangeredPlantSpecies.qés az alább látható

SELECT család, COUNT (faj) AS__veszélyeztetett_fajok száma FROM veszélyeztetett_fajok2 WHERE királyság = 'Plantae' ÉS 'veszélyeztetett állapot' = 'Veszélyeztetett' CSOPORT család szerint

4. Ez a lépés az ausztráliai Queensland államban kihalt állatfajok tudományos neveit sorolja fel. A szkriptfájl neve kihalt ÁllatokQLD.q és az alább látható:

KIVÁLASZTÁS 'közönséges név', 'tudományos név' FROM veszélyeztetett fajokból HOL királyság = 'Animalia' ÉS (qld = 'Igen' VAGY qld = 'Kihalt') ÉS 'fenyegetett állapot' = 'Kihalt'

Napló összesítése

Itt feltöltöttünk egy JSON fájlt is, az úgynevezett logAggregation.json nevű fájlt az S3 vázlat szkriptek mappájába. Ezt a fájlt használjuk a YARN naplófájlok összesítéséhez. A napló összesítését a yarn-site.xml konfigurációs fájlban konfigurálják, amikor a fürt elindul. A logAggregation.json fájl tartalma a következő:

[{„Osztályozás”: „fonal-webhely”, „Tulajdonságok”: {„fonal.log-összesítés-engedélyezés”: „igaz”, „fonal.log-összesítés.retain-másodperc”: „-1”, „fonal .nodemanager.remote-app-log-dir ”:“ s3: // arvind1-bucket / logs ”}}]

Miután létrehozta az S3 vödröt, és átmásolta az adat- és szkriptfájlokat a megfelelő mappákba, itt az ideje beállítani az EMR-fürtöt. A következő pillanatképek leírják a folyamatot, amikor a klasztert többnyire alapértelmezett beállításokkal hozzuk létre.

EMR Cluster Setup

Az első képen a fürt konfigurálásához az AWS-konzolon megtartottuk az EMR által ajánlott összes alkalmazást, beleértve a Hive-ot is. Nincs szükségünk az AWS ragasztóra a kaptár metaadatainak tárolásához, és jelenleg nem adunk hozzá munkalépést sem. Hozzá kell adnunk azonban a Hive szoftverbeállításait. Itt alaposan meg kell figyelnie, hogyan adjuk meg a napló összesítő JSON fájl elérési útját ebben a mezőben.

A következő lépésben megtartottuk az összes alapértelmezett beállítást. Tesztünk érdekében a fürtnek egy fő csomópontja és két mag csomópontja lesz. Minden csomópont itt egy m3.xlarge példány, és 10 GB gyökérkötettel rendelkezik. A következő lépésben elnevezzük a fürtöt az arvind1-fürtnek, és megadjuk a naplófájlok egyéni s3 helyét.

Végül meghatároztunk egy EC2 kulcspárt a fürt fő csomópontjának elérése céljából. Az EMR, az EC2 példányprofil és az automatikus méretezés opcióinak alapértelmezett IAM-szerepkörei nem változnak. Ezenkívül a master és a core csomópontok alapértelmezés szerint az elérhető biztonsági csoportokat használják. Normál esetben ez az EMR-fürt alapértelmezett beállítása. Miután minden elkészült, a fürt „várakozási” állapotban van, az alábbiak szerint:

Küldje el a kaptármunka lépéseit

Ezek után engedélyeznünk kell az SSH hozzáférést.

  1. Nyissa meg az Amazon EMR konzolt itt: https://console.aws.amazon.com/elasticmapreduce/ .
  2. Választ Klaszterek .
  3. Válaszd a Név a klaszter.
  4. Alatt Biztonság és hozzáférés válaszd a Biztonsági csoportok a Master számára link.
  5. Választ ElasticMapReduce-master a listáról.
  6. Választ Bejövő , Szerkesztés .
  7. Keresse meg a szabályt a következő beállításokkal, és válassza a lehetőséget x ikont a törléséhez:
    • típus SSH
    • Kikötő 22.
    • Forrás Egyéni 0.0.0.0/0
  8. Görgessen a szabályok listájának aljára, és válassza a lehetőséget Szabály hozzáadása .
  9. Mert típus , válassza ki SSH .Ez automatikusan belép TCP mert Jegyzőkönyv és 22. mert Port Range .
  10. Forrásként válassza a lehetőséget Az IP címem . Ez automatikusan hozzáadja az ügyfélszámítógép IP-címét forráscímként. Alternatív megoldásként hozzáadhat egy tartományt Egyedi megbízható kliens IP-címeket, és válassza a lehetőséget adja hozzá a szabályt további szabályok létrehozása más ügyfelek számára. Számos hálózati környezetben dinamikusan osztja ki az IP-címeket, így előfordulhat, hogy időszakosan módosítania kell a biztonsági csoport szabályait a megbízható ügyfelek IP-címének frissítéséhez.
  11. Választ Mentés .
  12. Opcionálisan választhat ElasticMapReduce-slave a listából, és ismételje meg a fenti lépéseket, hogy az SSH-kliens hozzáférhessen a megbízható kliensek központi és feladati csomópontjaihoz.

Amióta az EMR klaszter működik és működik, négy munkalépést adtunk hozzá. Ezek az EMR egymás után futnának. A következő kép az AWS EMR konzol lépéseit mutatja:

Miután hozzáadta a négy lépést, ellenőrizhetjük e lépések állapotát befejezettként. Még ha valamilyen probléma is van a lépések végrehajtásával, akkor ilyen esetekben a fenti naplófájlok segítségével megoldható.

program egy szám megfordítására java-ban

Tehát ez az én oldalamról az AWS Big Data című cikkében. Remélem, mindent megértett, amit itt elmagyaráztam.

Ha relevánsnak találta ezt a nagy adatot az AWS-ben, akkor megnézheti Edureka élő és oktató által vezetett tanfolyamát , amelyet az ipari szakemberek hoztak létre.

Van egy kérdésünk? Kérjük, említse meg a Hogyan telepítsük a Java webalkalmazást az AWS-ben megjegyzés szakaszában, és mi kapcsolatba lépünk Önnel.