Az Apache Flink egy nyílt forráskódú platform az elosztott adatfolyamok és a kötegelt adatok feldolgozásához. Windows, Mac OS és Linux operációs rendszereken futtatható. Ebben a blogbejegyzésben vitassuk meg, hogyan lehet helyi szinten beállítani a Flink fürtöt. Sok szempontból hasonlít a Sparkra - API-ja van a Graph és Machine tanulás feldolgozásához, mint az Apache Spark -, de az Apache Flink és az Apache Spark nem teljesen ugyanaz.
A Flink fürt beállításához telepítenie kell a java 7.x vagy újabb rendszert. Mivel a CentOS-ra (Linux) telepítettem a Hadoop-2.2.0 verziót, letöltöttem a Flink csomagot, amely kompatibilis a Hadoop 2.x-szel. Futtassa az alábbi parancsot a Flink csomag letöltéséhez.
Parancs: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Távolítsa el a fájlt a flink könyvtár megszerzéséhez.
Parancs: tar -xvf Letöltések / flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Parancs: ls
Adja hozzá a Flink környezeti változókat a .bashrc fájlba.
Parancs: sudo gedit .bashrc
Futtatnia kell az alábbi parancsot, hogy a .bashrc fájl változásai aktiválódjanak
Parancs: forrás .bashrc
Most lépjen a flink könyvtárba, és indítsa el a fürtöt helyben.
Parancs: cd vaskos-1.0.0
Parancs: bin / start-local.sh
Miután elindította a fürtöt, láthatja, hogy fut egy új démon JobManager.
Parancs: jps
Nyissa meg a böngészőt, és keresse fel a http: // localhost: 8081 webhelyet az Apache Flink webes felhasználói felületének megtekintéséhez.
Futtassunk egy egyszerű szószám-példát az Apache Flink használatával.
A példa futtatása előtt telepítse a netcat programot a rendszerén (sudo yum install nc).
Most egy új terminálban futtassa az alábbi parancsot.
Parancs: nc -lk 9000
Futtassa az alábbi parancsot a flink terminálon. Ez a parancs egy olyan programot futtat, amely a streamelt adatokat veszi bemenetként, és végrehajtja a szószám-műveletet ezen az adatfolyamon.
Parancs: bin / flink futtatási példák / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000
A webes felhasználói felületen futó állapotban láthatja a munkát.
c ++ rendező tömb növekvő sorrendben
Futtassa az alábbi parancsot egy új terminálon, ez kinyomtatja a streamelt és feldolgozott adatokat.
Parancs: tail -f log / flink - * - jobmanager - *. ki
Most menjen abba a terminálba, ahol elindította a netcat programot, és írjon be valamit.
Abban a pillanatban, amikor megnyomja az enter gombot a kulcsszaván, miután beírt néhány adatot a netcat terminálra, a wordcount műveletet alkalmazzák ezekre az adatokra, és a kimenetet itt (flink's jobmanager napló) nyomtatják milliszekundumon belül!
Nagyon rövid időn belül az adatokat továbbítják, feldolgozzák és kinyomtatják.
Sokkal többet kell megtudni az Apache Flinkről. A közelgő blogunkban más Flink témákat fogunk érinteni.
Van egy kérdésünk? Említse meg őket a megjegyzés rovatban, és kapcsolatba lépünk Önnel.
Kapcsolódó hozzászólások:
Apache Falcon: Új adatkezelő platform a Hadoop ökoszisztémához