Az Apache Hive egy adattároló csomag, amely a Hadoop tetejére épült, és adatelemzésre szolgál. A Hive olyan felhasználóknak szól, akik jól érzik magukat az SQL-ben. Hasonló az SQL-hez és HiveQL-nek hívják, amelyet strukturált adatok kezelésére és lekérdezésére használnak. Az Apache Hive a Hadoop összetettségének elvont összetételéhez szokott. Ez a nyelv lehetővé teszi a hagyományos térkép / redukció programozók számára, hogy csatlakoztassák egyedi leképezőiket és szűkítőiket. A Hive népszerű tulajdonsága, hogy nincs szükség a Java megtanulására.
A Hive, egy Hadoopon alapuló, nyílt forráskódú, béta-bájt dátumú raktározási keretrendszert fejlesztette ki a Facebook Adatinfrastruktúra csapata. A Hive szintén az egyik olyan technológia, amelyet a Facebook követelményeinek kielégítésére használnak. A Hive nagyon népszerű a belső felhasználók számára a Facebookon, és több ezer felhasználó futtatására használják a fürtön több száz felhasználóval, sokféle alkalmazáshoz. A Hive-Hadoop klaszter a Facebookon több mint 2PB nyers adatot tárol, és rendszeresen napi 15 TB adatot tölt be.
Vizsgáljuk meg néhány jellemzőjét, amelyek népszerűvé és felhasználóbaráttá teszik:
- Lehetővé teszi a programozók számára, hogy egyedi Mappereket és Reduktorokat csatlakoztassanak.
- Adattárház infrastruktúrával rendelkezik.
- Eszközöket biztosít az ETL egyszerű adatkezeléséhez.
- QL nevű SQL-szerű lekérdezési nyelvet határoz meg.
Apache Hive használati eset - Facebook:
A Hive bevezetése előtt a Facebooknak számos kihívással kellett szembenéznie, mivel a létrehozott adatok nagysága nőtt vagy inkább felrobbant, ami igazán megnehezítette azok kezelését. A hagyományos RDBMS nem tudta kezelni a nyomást, és ennek eredményeként a Facebook kereste a jobb lehetőségeket. Ennek a küszöbön álló kérdésnek a megoldására a Facebook kezdetben megpróbálta használni a Hadoop MapReduce alkalmazást, de a programozás nehézségei és az SQL kötelező ismeretei miatt nem praktikus megoldássá tette. A kaptár lehetővé tette számukra, hogy legyőzzék az előttük álló kihívásokat.
A Hive segítségével most a következőket tudják elvégezni:
- Az asztalok részletekben és vödrökben is elhelyezhetők
- A séma rugalmassága és evolúciója
- JDBC / ODBC illesztőprogramok állnak rendelkezésre
- A kaptár táblák közvetlenül meghatározhatók a HDFS-ben
- Bővíthető - típusok, formátumok, függvények és szkriptek
Kaptár használati esete az egészségügyben:
Hol használjuk a kaptárat?
Az Apache Hive a következő helyeken használható:
- Adatbányászat
- Napló feldolgozása
- Dokumentum indexelés
- Az üzleti intelligenciával szembesülő ügyfél
- Prediktív modellezés
- Hipotézis tesztelés
Hive építészet:
apache-szikra a hadoop mapreduce-hoz képest
A kaptár a következő fő összetevőkből áll:
- Metastore - A metaadatok tárolása.
- JDBC / ODBC - Lekérdező fordító és végrehajtó motor az SQL lekérdezések MapReduce sorrenddé alakítására.
- SerDe és ObjectInspectors - Adatformátumokhoz és -típusokhoz.
- UDF / UDAF - A felhasználó által definiált funkciókhoz.
- Ügyfelek - Hasonló a MySQL parancssorhoz és a webes felhasználói felülethez.
A kaptár összetevői:
Metastore:
A Metastore tárolja a táblák, partíciók és oszlopok adatait. A Metastore tárolásának 3 módja van: Beágyazott, Helyi és Távoli. Leginkább a Remote Metastore-t használják gyártási módban.
A kaptár korlátai:
A kaptár a következő korlátozásokkal rendelkezik, és ilyen körülmények között nem használható:
- Nem online tranzakciók feldolgozására készült.
- Elfogadható késést biztosít az interaktív adatböngészéshez.
- Nem kínál valós idejű lekérdezéseket és sorszintű frissítéseket.
- A kaptár lekérdezéseinek késleltetése általában nagyon magas.
Van egy kérdésünk? Említse meg őket a megjegyzések részben, és mi kapcsolatba lépünk Önnel.
Kapcsolódó hozzászólások: