Hadoop 2.0 - Gyakran Ismételt Kérdések



Az elmúlt néhány évben a Hadoop iránti érdeklődés sokszorosára nőtt. Ez a bejegyzés megválaszolja kérdéseit, és sok kétséget kizár a Hadoop 2.0-val és annak használatával kapcsolatban.

Ez egy utólagos bejegyzés, amely megválaszolja az edureka nyilvános webináriuma során gyakran feltett kérdéseket! tovább .

különbség a jquery és a javascript között

Gyakran ismételt kérdések a Hadoop-tal kapcsolatban

Deepak:





Mi az a Hadoop?
Az Apache Hadoop egy nyílt forráskódú szoftver keretrendszer az adatkészletek tárolásához és nagy léptékű feldolgozásához egy árucikk-hardver klaszterén. Ez egy nyílt forráskódú adatkezelő szoftver keretrendszer, kibővített tárolással és elosztott feldolgozással. A közreműködők és a felhasználók globális közössége építi és használja.

További információ a Hadoop blogbejegyzésünkben és .



Keresés:

Melyek a nagy adat felhasználási esetek az utazás, a szállítás és a légitársaságok területén?

Napos:



Mutatna minket a Hadoop megvalósítás néhány valós mintájára, amelyet tanulmányozhatunk?
Livi vagyunknak,-neka csúcsidőben növekvő torlódások korszakában. A közlekedési szolgáltatók folyamatosan keresik költséghatékony módjaikat szolgáltatásaik teljesítésére, miközben szállítási flottájukat jó körülmények között tartják. A Big Data Analytics használata ebben a tartományban segíthet a szervezetnek a következőkben:

  • Útvonal optimalizálás
  • Térinformatika
  • Forgalmi minták és torlódások
  • Eszközök karbantartása
  • Bevételkezelés (azaz légitársaság)
  • Készletgazdálkodás
  • Üzemanyag-megtakarítás
  • Célzott marketing
  • Vásárlói hűség
  • Kapacitás előrejelzése
  • Hálózati teljesítmény és optimalizálás

Kevés a valós használati eset:
nak nek) Repülési költségek meghatározása
b) Jóslás modellezése a készletlogisztikához
c) Orbitz Worldwide - Ügyfélvásárlási minták
d) Hat Super-Scale Hadoop telepítés
van) Hadoop - Több, mint hozzáad
f) Hadoop az Enterprise-ban

A Hadoop Real-implementációkról többet tudhat meg:

Hirdesh:

A Hadoop az adatkezelésről és -feldolgozásról szól? Hogyan állunk a Jelentések és a Visual Analytics használatához. Használható a Qlikview, Tableau a Hadoop tetején?
A Hadoop alapvető összetevői, a HDFS és a MapReduce, az adattárolásról és -feldolgozásról szólnak. HDFS tároláshoz és MapReduce feldolgozáshoz. De az elemzéshez olyan Hadoop-alapkomponenseket használnak, mint a Pig és a Hive. A Visual Reports Tableau esetében a QlikView csatlakoztatható a Hadoop for Visual Reporting szolgáltatáshoz.

Amit:

Hadoop vs. mongoDB
A MongoDB-t „operatív” valós idejű adattárolóként, míg a Hadoop-ot offline kötegelt adatfeldolgozásra és -elemzésre használják.
A mongoDB egy dokumentumorientált, séma nélküli adattár, amelyet egy webalkalmazásban háttérként használhat az RDBMS helyett, mint például a MySQL, míg a Hadoop-ot főként nagyméretű adattárolásra és elosztott feldolgozásra használják.

Bővebben itt olvashat mongoDB és Hadoop blogbejegyzés .

Itt:

Az Apache Spark a Hadoop része ?
Az Apache Spark egy gyors és általános motor a nagyméretű adatfeldolgozáshoz. A Spark gyorsabb és támogatja a memóriában történő feldolgozást. A Spark végrehajtó motor kiszélesíti a Hadoop által kezelhető számítási munkaterhelések típusát, és futtatható a Hadoop 2.0 YARN fürtön. Ez egy olyan feldolgozási keretrendszer, amely lehetővé teszi a memóriában lévő objektumok (RDD) tárolását, valamint az ezeknek az objektumoknak a Scala lezárásokkal történő feldolgozásának lehetőségét. Támogatja a Graph, Data Warehouse, Machine Learning és Stream feldolgozást.

Ha van Hadoop 2 fürtje, telepítés nélkül futtathatja a Sparkot. Egyébként a Spark könnyen futtatható önállóan, vagy EC2-en vagy Mesoson. HDFS, HBase, Cassandra és bármely Hadoop adatforrásból olvasható.

További információ a Sparkról itt .

Prasad:

Mi az Apache Flume?
Az Apache Flume egy elosztott, megbízható és elérhető rendszer nagy mennyiségű naplóadat hatékony összegyűjtésére, összesítésére és áthelyezésére sokféle forrásból egy központi adatforrásba.

Amit:

SQL vs NO-SQL adatbázisok
A NoSQL adatbázisok a Next Generation adatbázisok, és többnyire néhány pontra vonatkoznak

  • nem relációs
  • megosztott
  • nyílt forráskód
  • vízszintesen méretezhető

Gyakran több jellemző alkalmazható, mint például séma nélküli, egyszerű replikációs támogatás, egyszerű API, végül következetes / BASE (nem ACID), hatalmas mennyiségű adat és még sok más. Például a megkülönböztetőből kevés:

  • A NoSQL adatbázisok vízszintesen bővülnek, és több szervert adnak hozzá a nagyobb terhelések kezeléséhez. Az SQL adatbázisok viszont általában függőlegesen bővülnek, és a forgalom növekedésével egyre több erőforrást adnak egyetlen kiszolgálóhoz.
  • Az SQL adatbázisok megkövetelték a sémák definiálását, mielőtt bármilyen információt és adatot hozzáadtak volna, de a NoSQL adatbázisok sémamentesek, nem igénylik előre a séma meghatározását.
  • Az SQL adatbázisok táblákon alapulnak, sorokkal és oszlopokkal, az RDBMS alapelveit követve, míg a NoSQL adatbázisok dokumentum-, kulcs-érték párok, grafikonok vagy széles oszlopok tárolók.
  • Az SQL adatbázisok SQL-t (strukturált lekérdezési nyelv) használnak az adatok meghatározásához és kezeléséhez. A NoSQL adatbázisban a lekérdezések adatbázisok szerint változnak.

Népszerű SQL adatbázisok: MySQL, Oracle, Postgres és MS-SQL
Népszerű NoSQL adatbázisok: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j és CouchDB

Tekintse át blogjainkat itt: Hadoop és NoSQL adatbázisok és egy ilyen adatbázis előnyei:

Koteswararao:

Van-e Hadoop-nak beépített fürt technológiája?
A Hadoop-fürt Master-Slave architektúrát használ. Ez egyetlen mesterből (NameNode) és rabszolgaklaszterből (DataNodes) áll az adatok tárolására és feldolgozására. A Hadoop-ot úgy tervezték, hogy számos olyan gépen fusson, amelyek nem osztanak meg semmilyen memóriát vagy lemezt. Ezek a DataNode-ok fürtként vannak konfigurálva . Hadoop a replikáció koncepcióját használja annak biztosítására, hogy az adatok legalább egy példánya folyamatosan rendelkezésre álljon a fürtben. Mivel több adatmásolat létezik, a kiszolgálón tárolt adatok, amelyek offline állapotba kerülnek vagy meghalnak, automatikusan replikálhatók egy ismert jó példányból.

Dinesh:

Mi az a munka a Hadoopban? Mi mindent lehet elérni egy Job révén?
A Hadoopban a Job egy MapReduce program az adatok feldolgozásához / elemzéséhez. A MapReduce kifejezés valójában két külön és különálló feladatra utal, amelyeket a Hadoop programok hajtanak végre. Az első a Térkép feladat, amely egy adatkészletet vesz fel, és átalakítja egy másik köztes adatkészletgé, ahol az egyes elemeket kulcs-érték párokra bontják. A MapReduce Job második része, a Reduce feladat a térkép kimenetét veszi bemenetként, és a kulcs-érték párokat egyesíti az összesített kulcs-érték pár kisebb halmazába. Amint a MapReduce név sorrendje azt sugallja, a Reduce feladatot mindig a Map feladatok befejezése után hajtják végre. További információ a MapReduce Job oldalon .

Sukruth:

Mi a különleges a NameNode-ban ?
A NameNode a HDFS fájlrendszer szíve. Megőrzi a fájlrendszer összes fájljának metaadatait, például a könyvtárfát, és nyomon követi, hogy a fürtön hol tárolják a fájladatokat. A tényleges adatokat HDFS blokkokként tárolják a DataNodes.
Az ügyfélalkalmazások akkor beszélnek a NameNode-tal, amikor egy fájlt meg akarnak találni, vagy amikor fájlt akarnak hozzáadni / másolni / áthelyezni / törölni. A NameNode válaszol a sikeres kérésekre, és visszaküldi a releváns DataNodes szerverek listáját, ahol az adatok élnek. További információ a HDFS architektúráról .

Dinesh:

Mikor került a Hadoop 2.0 piacra?
Az Apache Software Foundation (ASF), a Hadoop Developmentt irányító nyílt forráskódú csoport 2013. október 15-én megjelent blogjában bejelentette, hogy a Hadoop 2.0 jelenleg általánosan elérhető (GA). Ez a bejelentés azt jelenti, hogy hosszú várakozás után az Apache Hadoop 2.0 és a YARN készen áll a Production telepítésére. További információ Blog.

Dinesh:

Mi a néhány példa a nem MapReduce Big Data alkalmazásra?
A MapReduce sok alkalmazás számára kiválóan alkalmas a Big Data problémák megoldására, de nem minden más programozási modell jobban szolgálja a követelményeket, mint például a Graph-feldolgozás (pl. Google Pregel / Apache Giraph) és az iteratív modellezés az üzenetátviteli felülettel (MPI).

Marish:

Hogyan rendezik és indexelik az adatokat a HDFS-ben?
Az adatokat 64 MB-os (egy paraméterrel konfigurálható) blokkokra bontják, és HDFS-ben tárolják. A NameNode ezen blokkok tárolási információit blokkazonosítókként tárolja a RAM-ban (NameNode Metadata). A MapReduce feladatok a NameNode RAM-ban tárolt metaadatok segítségével férhetnek hozzá ezekhez a blokkokhoz.

Shashwat:

Használhatjuk mind a MapReduce (MRv1), mind az MRv2 (YARN-nal) azonos fürtön?
A Hadoop 2.0 egy új keretrendszert vezetett be a YARN-ba, amely különböző alkalmazásokat írhat és futtat a Hadoopon. Tehát a YARN és a MapReduce két különböző fogalom a Hadoop 2.0-ban, ezért nem szabad őket keverni és felcserélhető módon használni. A helyes kérdés az 'Futtatható-e mind az MRv1, mind az MRv2 egy YARN-kompatibilis Hadoop 2.0 fürtön?' A válasz erre a kérdésre a 'Nem' annak ellenére, hogy egy Hadoop-fürt konfigurálható mind az MRv1, mind az MRv2 futtatására, de csak egy démonkészletet futtathat bármikor. Mindkét keret ugyanazokat a konfigurációs fájlokat használja ( fonal-site.xml és mapred-site.xml ) a démonok futtatásához, ezért a két konfiguráció közül csak az egyik engedélyezhető egy Hadoop-fürtön.

Baba:

Mi a különbség a Next Generation MapReduce (MRv2) és a YARN között?
A YARN és a Next Generation MapReduce (MRv2) két különböző koncepció és technológia a Hadoop 2.0-ban. A YARN egy olyan szoftveres keretrendszer, amely nemcsak az MRv2, hanem más alkalmazások futtatására is használható. Az MRv2 egy YARN API-val írt alkalmazáskeret, amely a YARN-en belül fut.

Bharat:

Biztosítja a Hadoop 2.0 visszafelé kompatibilitását a Hadoop 1.x alkalmazásokhoz?
Neha:

A Hadoop 1.0–2.0 migrációhoz nagy alkalmazáskód szükséges-e? migráció?
Nem, az „org.apache.hadoop.mapred” API-k segítségével kifejlesztett alkalmazás nagy része újrafordítás nélkül is futtatható a YARN-on. A YARN binárisan kompatibilis az MRv1 alkalmazásokkal, és a „bin / hadoop” segítségével ezeket az alkalmazásokat a YARN-ra lehet beküldeni. További információ erről itt .

Sherin:

__init__ python 3

Mi történik, ha az Erőforrás-kezelő csomópont nem működik a Hadoop 2.0 rendszerben?
A Hadoop 2.4.0 verziótól kezdve az Erőforrás-kezelő magas rendelkezésre állású támogatása is elérhető. A ResourceManager az Apache ZooKeeper programot használja a hibakezeléshez. Ha az erőforrás-kezelő csomópont nem sikerül, egy másodlagos csomópont gyorsan helyreállhat a ZooKeeper programba mentett fürtállapoton keresztül. A ResourceManager egy hiba esetén újraindítja az összes várakozási sorban lévő és futó alkalmazást.

Sabbirali:

Működik az Apache Hadoop keretrendszere a Cloudera Hadoopon?
Az Apache Hadoop-ot 2005-ben vezették be a MapReduce alapmotorral, hogy támogassák a HDFS-ben tárolt nagyméretű adatterhelések elosztott feldolgozását. Ez egy nyílt forráskódú projekt, és több disztribúcióval rendelkezik (hasonlóan a Linuxhoz). A Cloudera Hadoop (CDH) a Cloudera egyik ilyen terjesztése. További hasonló disztribúciók a HortonWorks, a MapR, a Microsoft HDInsight, az IBM InfoSphere BigInsights stb.

Arulvadivel:

Van bármilyen egyszerű módszer a Hadoop telepítésére a laptopomra és az Oracle adatbázis Hadoop-ra történő migrálásának kipróbálása?
tudsz Rajt val vel egy HortonWorks Sandbox vagy Cloudera Quick VM a laptopon (legalább 4 GB RAM-mal és i3 vagy újabb processzorral). Az SQOOP használatával vigye át az adatokat az Oracle-ről a Hadoop-ra, amint azt elmagyarázta itt .

Bhabani:

Melyek a legjobb könyvek a Hadoop megtanulásához?
Kezdeni valamivel Hadoop: A végleges útmutató írta Tom White és Hadoop műveletek írta Eric Sammer.

Mahendra:

Van-e olyan olvasmány a Hadoop 2.0-hoz, mint a Hadoop a végleges útmutató?
Tekintse át a legújabb érkezés a Hadoop 2.0 alkotói közül kevesen írt könyvespolcokon.

Maradjon velünk a sorozat további kérdéseivel kapcsolatban.