4 módszer az R és a Hadoop együttes használatára



R és Hadoop egész jól kiegészítik egymást a nagy adatok vizualizálása és elemzése szempontjából. Ez a blogbejegyzés 4 együttes használatuk módjáról szól.

A Hadoop egy olyan bomlasztó Java-alapú programozási keretrendszer, amely nagy adatkészletek feldolgozását támogatja elosztott számítási környezetben, míg az R programozási nyelv és szoftveres környezet a statisztikai számításhoz és grafikához. Az R nyelvet statisztikusok és adatbányászok körében széles körben használják statisztikai szoftverek fejlesztésére és adatelemzésre. Az interaktív adatelemzés, az általános célú statisztikák és a prediktív modellezés területén az R osztályozása, klaszterezése és rangsorolási képességei miatt hatalmas népszerűségre tett szert.

KM





Hadoop és R elég jól kiegészítik egymást a nagy adatok vizualizálása és elemzése szempontjából.

cassandra oszlopcsalád vs asztal

R és Hadoop használatával

A Hadoop és R együttes alkalmazásának négy különböző módja van:



1. RHadoop

Az RHadoop három R csomagból áll: rmr, rhdfs és rhbase. Az rmr csomag Hadoop MapReduce funkcionalitást biztosít az R-ben, az rhdfs HDFS fájlkezelést biztosít R-ben, az rhbase pedig HBase adatbázis-kezelést biztosít R-ből. Ezen elsődleges csomagok felhasználhatók a Hadoop keretrendszer-adatok jobb elemzésére és kezelésére.

2. ORCH



Az ORCH az Oracle R Connector for Hadoop kifejezést jelenti. Ez egy olyan R csomagok gyűjteménye, amelyek a megfelelő interfészeket biztosítják a Hive táblákkal, az Apache Hadoop számítási infrastruktúrával, a helyi R környezettel és az Oracle adatbázis táblákkal való együttműködéshez. Ezenkívül az ORCH prediktív analitikai technikákat is kínál, amelyek a HDFS fájlokban található adatokra alkalmazhatók.

3. RIPE

A RHIPE egy R csomag, amely API-t biztosít a Hadoop használatához. A RHIPE az R és a Hadoop integrált programozási környezetet jelenti, és lényegében más API-val rendelkező RHadoop.

Négy. Hadoop streaming

A Hadoop Streaming egy olyan segédprogram, amely lehetővé teszi a felhasználók számára, hogy bármilyen futtatható fájlral, például leképező és / vagy redukálóként, munkahelyeket hozzanak létre és futtassanak. A streaming rendszer segítségével működő Hadoop-feladatok fejleszthetők, elegendő Java ismerettel ahhoz, hogy két héj szkriptet tandemben működjenek.

Az R és a Hadoop kombinációja kötelező eszközként szolgál a statisztikákkal és a nagy adathalmazokkal dolgozó emberek számára. Egyes Hadoop-rajongók azonban vörös zászlót emeltek, miközben rendkívül nagy Big Data-töredékekkel foglalkoztak. Azt állítják, hogy az R előnye nem a szintaxisa, hanem a vizualizáció és a statisztika primitívjeinek kimerítő gyűjteménye. Ezek a könyvtárak alapvetően nem terjesztettek, így az adatok visszakeresése időigényes ügy. Ez az R eredendő hibája, és ha úgy dönt, hogy figyelmen kívül hagyja, akkor R és Hadoop tandemben továbbra is csodákra képesek.

Lássunk egy bemutatót:

milyen módon lehet használni ezt a kulcsszót

mi a példa a java-ban

Van egy kérdésünk? Kérjük, említse meg őket a megjegyzések részben, és mi kapcsolatba lépünk Önnel.

Kapcsolódó hozzászólások: