Ez egy utólagos bejegyzés, amely megválaszolja az edureka nyilvános webináriuma során gyakran feltett kérdéseket! tovább .
különbség a jquery és a javascript között
Gyakran ismételt kérdések a Hadoop-tal kapcsolatban
Deepak:
Mi az a Hadoop?
Az Apache Hadoop egy nyílt forráskódú szoftver keretrendszer az adatkészletek tárolásához és nagy léptékű feldolgozásához egy árucikk-hardver klaszterén. Ez egy nyílt forráskódú adatkezelő szoftver keretrendszer, kibővített tárolással és elosztott feldolgozással. A közreműködők és a felhasználók globális közössége építi és használja.
További információ a Hadoop blogbejegyzésünkben és .
Keresés:
Melyek a nagy adat felhasználási esetek az utazás, a szállítás és a légitársaságok területén?
Napos:
Mutatna minket a Hadoop megvalósítás néhány valós mintájára, amelyet tanulmányozhatunk?
Livi vagyunknak,-neka csúcsidőben növekvő torlódások korszakában. A közlekedési szolgáltatók folyamatosan keresik költséghatékony módjaikat szolgáltatásaik teljesítésére, miközben szállítási flottájukat jó körülmények között tartják. A Big Data Analytics használata ebben a tartományban segíthet a szervezetnek a következőkben:
- Útvonal optimalizálás
- Térinformatika
- Forgalmi minták és torlódások
- Eszközök karbantartása
- Bevételkezelés (azaz légitársaság)
- Készletgazdálkodás
- Üzemanyag-megtakarítás
- Célzott marketing
- Vásárlói hűség
- Kapacitás előrejelzése
- Hálózati teljesítmény és optimalizálás
Kevés a valós használati eset:
nak nek) Repülési költségek meghatározása
b) Jóslás modellezése a készletlogisztikához
c) Orbitz Worldwide - Ügyfélvásárlási minták
d) Hat Super-Scale Hadoop telepítés
van) Hadoop - Több, mint hozzáad
f) Hadoop az Enterprise-ban
A Hadoop Real-implementációkról többet tudhat meg:
Hirdesh:
A Hadoop az adatkezelésről és -feldolgozásról szól? Hogyan állunk a Jelentések és a Visual Analytics használatához. Használható a Qlikview, Tableau a Hadoop tetején?
A Hadoop alapvető összetevői, a HDFS és a MapReduce, az adattárolásról és -feldolgozásról szólnak. HDFS tároláshoz és MapReduce feldolgozáshoz. De az elemzéshez olyan Hadoop-alapkomponenseket használnak, mint a Pig és a Hive. A Visual Reports Tableau esetében a QlikView csatlakoztatható a Hadoop for Visual Reporting szolgáltatáshoz.
Amit:
Hadoop vs. mongoDB
A MongoDB-t „operatív” valós idejű adattárolóként, míg a Hadoop-ot offline kötegelt adatfeldolgozásra és -elemzésre használják.
A mongoDB egy dokumentumorientált, séma nélküli adattár, amelyet egy webalkalmazásban háttérként használhat az RDBMS helyett, mint például a MySQL, míg a Hadoop-ot főként nagyméretű adattárolásra és elosztott feldolgozásra használják.
Bővebben itt olvashat mongoDB és Hadoop blogbejegyzés .
Itt:
Az Apache Spark a Hadoop része ?
Az Apache Spark egy gyors és általános motor a nagyméretű adatfeldolgozáshoz. A Spark gyorsabb és támogatja a memóriában történő feldolgozást. A Spark végrehajtó motor kiszélesíti a Hadoop által kezelhető számítási munkaterhelések típusát, és futtatható a Hadoop 2.0 YARN fürtön. Ez egy olyan feldolgozási keretrendszer, amely lehetővé teszi a memóriában lévő objektumok (RDD) tárolását, valamint az ezeknek az objektumoknak a Scala lezárásokkal történő feldolgozásának lehetőségét. Támogatja a Graph, Data Warehouse, Machine Learning és Stream feldolgozást.
Ha van Hadoop 2 fürtje, telepítés nélkül futtathatja a Sparkot. Egyébként a Spark könnyen futtatható önállóan, vagy EC2-en vagy Mesoson. HDFS, HBase, Cassandra és bármely Hadoop adatforrásból olvasható.
További információ a Sparkról itt .
Prasad:
Mi az Apache Flume?
Az Apache Flume egy elosztott, megbízható és elérhető rendszer nagy mennyiségű naplóadat hatékony összegyűjtésére, összesítésére és áthelyezésére sokféle forrásból egy központi adatforrásba.
Amit:
SQL vs NO-SQL adatbázisok
A NoSQL adatbázisok a Next Generation adatbázisok, és többnyire néhány pontra vonatkoznak
- nem relációs
- megosztott
- nyílt forráskód
- vízszintesen méretezhető
Gyakran több jellemző alkalmazható, mint például séma nélküli, egyszerű replikációs támogatás, egyszerű API, végül következetes / BASE (nem ACID), hatalmas mennyiségű adat és még sok más. Például a megkülönböztetőből kevés:
- A NoSQL adatbázisok vízszintesen bővülnek, és több szervert adnak hozzá a nagyobb terhelések kezeléséhez. Az SQL adatbázisok viszont általában függőlegesen bővülnek, és a forgalom növekedésével egyre több erőforrást adnak egyetlen kiszolgálóhoz.
- Az SQL adatbázisok megkövetelték a sémák definiálását, mielőtt bármilyen információt és adatot hozzáadtak volna, de a NoSQL adatbázisok sémamentesek, nem igénylik előre a séma meghatározását.
- Az SQL adatbázisok táblákon alapulnak, sorokkal és oszlopokkal, az RDBMS alapelveit követve, míg a NoSQL adatbázisok dokumentum-, kulcs-érték párok, grafikonok vagy széles oszlopok tárolók.
- Az SQL adatbázisok SQL-t (strukturált lekérdezési nyelv) használnak az adatok meghatározásához és kezeléséhez. A NoSQL adatbázisban a lekérdezések adatbázisok szerint változnak.
Népszerű SQL adatbázisok: MySQL, Oracle, Postgres és MS-SQL
Népszerű NoSQL adatbázisok: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j és CouchDB
Tekintse át blogjainkat itt: Hadoop és NoSQL adatbázisok és egy ilyen adatbázis előnyei:
Koteswararao:
Van-e Hadoop-nak beépített fürt technológiája?
A Hadoop-fürt Master-Slave architektúrát használ. Ez egyetlen mesterből (NameNode) és rabszolgaklaszterből (DataNodes) áll az adatok tárolására és feldolgozására. A Hadoop-ot úgy tervezték, hogy számos olyan gépen fusson, amelyek nem osztanak meg semmilyen memóriát vagy lemezt. Ezek a DataNode-ok fürtként vannak konfigurálva . Hadoop a replikáció koncepcióját használja annak biztosítására, hogy az adatok legalább egy példánya folyamatosan rendelkezésre álljon a fürtben. Mivel több adatmásolat létezik, a kiszolgálón tárolt adatok, amelyek offline állapotba kerülnek vagy meghalnak, automatikusan replikálhatók egy ismert jó példányból.
Dinesh:
Mi az a munka a Hadoopban? Mi mindent lehet elérni egy Job révén?
A Hadoopban a Job egy MapReduce program az adatok feldolgozásához / elemzéséhez. A MapReduce kifejezés valójában két külön és különálló feladatra utal, amelyeket a Hadoop programok hajtanak végre. Az első a Térkép feladat, amely egy adatkészletet vesz fel, és átalakítja egy másik köztes adatkészletgé, ahol az egyes elemeket kulcs-érték párokra bontják. A MapReduce Job második része, a Reduce feladat a térkép kimenetét veszi bemenetként, és a kulcs-érték párokat egyesíti az összesített kulcs-érték pár kisebb halmazába. Amint a MapReduce név sorrendje azt sugallja, a Reduce feladatot mindig a Map feladatok befejezése után hajtják végre. További információ a MapReduce Job oldalon .
Sukruth:
Mi a különleges a NameNode-ban ?
A NameNode a HDFS fájlrendszer szíve. Megőrzi a fájlrendszer összes fájljának metaadatait, például a könyvtárfát, és nyomon követi, hogy a fürtön hol tárolják a fájladatokat. A tényleges adatokat HDFS blokkokként tárolják a DataNodes.
Az ügyfélalkalmazások akkor beszélnek a NameNode-tal, amikor egy fájlt meg akarnak találni, vagy amikor fájlt akarnak hozzáadni / másolni / áthelyezni / törölni. A NameNode válaszol a sikeres kérésekre, és visszaküldi a releváns DataNodes szerverek listáját, ahol az adatok élnek. További információ a HDFS architektúráról .
Dinesh:
Mikor került a Hadoop 2.0 piacra?
Az Apache Software Foundation (ASF), a Hadoop Developmentt irányító nyílt forráskódú csoport 2013. október 15-én megjelent blogjában bejelentette, hogy a Hadoop 2.0 jelenleg általánosan elérhető (GA). Ez a bejelentés azt jelenti, hogy hosszú várakozás után az Apache Hadoop 2.0 és a YARN készen áll a Production telepítésére. További információ Blog.
Dinesh:
Mi a néhány példa a nem MapReduce Big Data alkalmazásra?
A MapReduce sok alkalmazás számára kiválóan alkalmas a Big Data problémák megoldására, de nem minden más programozási modell jobban szolgálja a követelményeket, mint például a Graph-feldolgozás (pl. Google Pregel / Apache Giraph) és az iteratív modellezés az üzenetátviteli felülettel (MPI).
Marish:
Hogyan rendezik és indexelik az adatokat a HDFS-ben?
Az adatokat 64 MB-os (egy paraméterrel konfigurálható) blokkokra bontják, és HDFS-ben tárolják. A NameNode ezen blokkok tárolási információit blokkazonosítókként tárolja a RAM-ban (NameNode Metadata). A MapReduce feladatok a NameNode RAM-ban tárolt metaadatok segítségével férhetnek hozzá ezekhez a blokkokhoz.
Shashwat:
Használhatjuk mind a MapReduce (MRv1), mind az MRv2 (YARN-nal) azonos fürtön?
A Hadoop 2.0 egy új keretrendszert vezetett be a YARN-ba, amely különböző alkalmazásokat írhat és futtat a Hadoopon. Tehát a YARN és a MapReduce két különböző fogalom a Hadoop 2.0-ban, ezért nem szabad őket keverni és felcserélhető módon használni. A helyes kérdés az 'Futtatható-e mind az MRv1, mind az MRv2 egy YARN-kompatibilis Hadoop 2.0 fürtön?' A válasz erre a kérdésre a 'Nem' annak ellenére, hogy egy Hadoop-fürt konfigurálható mind az MRv1, mind az MRv2 futtatására, de csak egy démonkészletet futtathat bármikor. Mindkét keret ugyanazokat a konfigurációs fájlokat használja ( fonal-site.xml és mapred-site.xml ) a démonok futtatásához, ezért a két konfiguráció közül csak az egyik engedélyezhető egy Hadoop-fürtön.
Baba:
Mi a különbség a Next Generation MapReduce (MRv2) és a YARN között?
A YARN és a Next Generation MapReduce (MRv2) két különböző koncepció és technológia a Hadoop 2.0-ban. A YARN egy olyan szoftveres keretrendszer, amely nemcsak az MRv2, hanem más alkalmazások futtatására is használható. Az MRv2 egy YARN API-val írt alkalmazáskeret, amely a YARN-en belül fut.
Bharat:
Biztosítja a Hadoop 2.0 visszafelé kompatibilitását a Hadoop 1.x alkalmazásokhoz?
Neha:
A Hadoop 1.0–2.0 migrációhoz nagy alkalmazáskód szükséges-e? migráció?
Nem, az „org.apache.hadoop.mapred” API-k segítségével kifejlesztett alkalmazás nagy része újrafordítás nélkül is futtatható a YARN-on. A YARN binárisan kompatibilis az MRv1 alkalmazásokkal, és a „bin / hadoop” segítségével ezeket az alkalmazásokat a YARN-ra lehet beküldeni. További információ erről itt .
Sherin:
__init__ python 3
Mi történik, ha az Erőforrás-kezelő csomópont nem működik a Hadoop 2.0 rendszerben?
A Hadoop 2.4.0 verziótól kezdve az Erőforrás-kezelő magas rendelkezésre állású támogatása is elérhető. A ResourceManager az Apache ZooKeeper programot használja a hibakezeléshez. Ha az erőforrás-kezelő csomópont nem sikerül, egy másodlagos csomópont gyorsan helyreállhat a ZooKeeper programba mentett fürtállapoton keresztül. A ResourceManager egy hiba esetén újraindítja az összes várakozási sorban lévő és futó alkalmazást.
Sabbirali:
Működik az Apache Hadoop keretrendszere a Cloudera Hadoopon?
Az Apache Hadoop-ot 2005-ben vezették be a MapReduce alapmotorral, hogy támogassák a HDFS-ben tárolt nagyméretű adatterhelések elosztott feldolgozását. Ez egy nyílt forráskódú projekt, és több disztribúcióval rendelkezik (hasonlóan a Linuxhoz). A Cloudera Hadoop (CDH) a Cloudera egyik ilyen terjesztése. További hasonló disztribúciók a HortonWorks, a MapR, a Microsoft HDInsight, az IBM InfoSphere BigInsights stb.
Arulvadivel:
Van bármilyen egyszerű módszer a Hadoop telepítésére a laptopomra és az Oracle adatbázis Hadoop-ra történő migrálásának kipróbálása?
tudsz Rajt val vel egy HortonWorks Sandbox vagy Cloudera Quick VM a laptopon (legalább 4 GB RAM-mal és i3 vagy újabb processzorral). Az SQOOP használatával vigye át az adatokat az Oracle-ről a Hadoop-ra, amint azt elmagyarázta itt .
Bhabani:
Melyek a legjobb könyvek a Hadoop megtanulásához?
Kezdeni valamivel Hadoop: A végleges útmutató írta Tom White és Hadoop műveletek írta Eric Sammer.
Mahendra:
Van-e olyan olvasmány a Hadoop 2.0-hoz, mint a Hadoop a végleges útmutató?
Tekintse át a legújabb érkezés a Hadoop 2.0 alkotói közül kevesen írt könyvespolcokon.
Maradjon velünk a sorozat további kérdéseivel kapcsolatban.