Python Pandas oktatóanyag: Ismerje meg a pandákat az adatelemzéshez



Ebben a Python Pandas oktatóanyagban megismerheti a Pandas különféle műveleteit. Tartalmaz egy felhasználási esetet is, ahol a Pandas segítségével elemezheti az adatokat.

Ebben a blogban a Pandas használatával végzett adatelemzést fogjuk megvitatni a Pythonban.Ma, forró képesség az iparban, amely az általános népszerűség és felhasználás szempontjából felülmúlta a PHP-t 2017-ben és a 2018-as C # értéket.Mielőtt Pandákról beszélnénk, meg kell értenünk a Numpy tömbök fogalmát. Miért? Mivel a Pandas egy nyílt forráskódú szoftverkönyvtár, amely a tetejére épül . Ebben a Python Pandas oktatóanyagban a következő témákat ismertetem, amelyek a következő blogok alapjait szolgálják:

Lássunk neki. :-)





Mi az a Python Panda?

A pandákat adatkezelésre, elemzésre és tisztításra használják. A Python pandák jól használhatók különböző típusú adatokhoz, például:

  • Táblázatos adatok heterogénen tipizált oszlopokkal
  • Rendezett és rendezetlen idősoros adatok
  • Önkényes mátrixadatok sor- és oszlopcímkékkel
  • Jelöletlen adatok
  • Bármely más megfigyelési vagy statisztikai adatkészlet

Hogyan kell telepíteni a Pandákat?

A Python Panda telepítéséhez lépjen a parancssorba / terminálra, és írja be a „pip install pandas” parancsot, vagy pedig ha nem, akkor telepítse az anacondát a rendszerébe, csak írja be a „conda install pandas” szót. Miután a telepítés befejeződött, lépjen az IDE-hez (Jupyter, PyCharm stb.), És egyszerűen importálja a következő paranccsal: 'import pandas as pd'



A Python pandas oktatóanyagban haladva nézzük meg néhány műveletét:

Python Panda műveletek

A Python pandák használatával sok műveletet hajthat végre sorokkal, adatkeretekkel, hiányzó adatokkal, csoportosítással stb. Az alábbiakban felsoroljuk az adatkezeléssel kapcsolatos általános műveleteket:



PandasOperations - Python Pandas bemutató - Edureka

Most pedig értsük meg mindezeket a műveleteket egyenként.

Az adatkeret szeletelése

Az adatok szeleteléséhez adatkeretre van szükség. Ne aggódjon, az adatkeret kétdimenziós adatszerkezet és a leggyakoribb pandás objektum. Tehát először hozzunk létre egy adatkeretet.

A PyCharm-ban való megvalósításához olvassa el az alábbi kódot:

importálja a pandákat, mint pd 23,15,10,34]} df = pd.DataFrame (XYZ_web) nyomtatás (df)

Kimenet :

Bounce_Rate napi látogatók 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 350

A fenti kód egy szótárt pandák adatkeretévé alakít, a bal oldali index mellett. Vágjunk egy adott oszlopot ebből az adatkeretből. Lásd az alábbi képet:

bináris és decimális java kód
nyomtatás (df.head (2))

Kimenet:

Bounce_Rate napi látogatók 0 20 1 1000 1 20 2 700

Hasonlóképpen, ha az adatok utolsó két sorát szeretné megadni, írja be az alábbi parancsot:

nyomtatás (df.tail (2))

Kimenet:

Bounce_Rate napi látogatók 4 10 5 400 5 34 6 350

Ezután a Python Pandas oktatóprogramban végezzük el az egyesítést és a csatlakozást.

Egyesülés és csatlakozás

Összevonáskor két adatkeretet egyesíthet egyetlen adatkeret kialakításához. Azt is eldöntheti, mely oszlopokat szeretné közösvé tenni. Engedje meg, hogy ezt gyakorlatilag megvalósítsam. Először három adatkeretet hozok létre, amelyben van néhány kulcs-érték pár, majd egyesítem az adatkereteket. Lásd az alábbi kódot:

HPI IND_GDP Int_Ráta 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Kimenet:

importálja a pandákat pd df1 = pd.DataFrame néven ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, index = [2001, 2002, 2003, 2003, 2004]) df2 = pd.DataFrame ({'HPI: [80,90,70,60],' Int_Rate ': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, index = [2005, 2006,2007,2008]) egyesült = pd.merge (df1, df2) nyomtatás (egyesítve)

Mint fent láthatja, a két adatkeret egyetlen adatkeretbe egyesült. Most megadhatja azt az oszlopot is, amelyet közösvé kíván tenni. Például azt akarom, hogy a „HPI” oszlop közös legyen, és minden máshoz külön oszlopokat. Tehát hadd valósítsam meg ezt gyakorlatilag:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) egyesült = pd.merge (df1, df2, on = 'HPI') nyomtatás (egyesítve)

Kimenet:

IND_GDP Int_Rate Low_Tier_HPI Munkanélküliség 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Ezután értsük meg csatlakozás a python pandas bemutatóban. Ez egy másik kényelmes módszer két különböző indexelésű adatkeret egyetlen eredmény adatkeretbe történő egyesítésére. Ez meglehetősen hasonlít az „egyesítés” művelethez, azzal a különbséggel, hogy a csatlakozási művelet az „oszlopok” helyett az „indexen” lesz. Hajtsuk végre gyakorlatilag.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Munkanélküliség': [1,3,5,6]}, index = [2001, 2003,2004,2004]) csatlakozott = df1. csatlakozás (df2) nyomtatás (csatlakozás)

Kimenet:

IND_GDP Int_Rate Low_Tier_HPI Munkanélküliség 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Amint a fenti kimeneten is észreveheti, a 2002-es évben (index) az „alacsony_tier_HPI” és a „munkanélküliség” oszlopokhoz nincs érték társítva, ezért NaN-t (Not a Number) nyomtatott. Később 2004-ben mindkét érték elérhető, ezért kinyomtatta a megfelelő értékeket.

Végigviheti a Python Pandas oktatóanyag ezen felvételét, ahol oktatónk részletesen elmagyarázta a témákat példákkal, amelyek segítenek jobban megérteni ezt a koncepciót.

Python adatelemzéshez Python Pandas bemutató | Python képzés | Edureka


Haladva a Python pandas oktatóanyagban, értsük meg, hogyan lehet összefűzni két adat adatkeretet.

Összefűzés

Az összefűzés alapvetően összeragasztja az adatkereteket. Kiválaszthatja azt a dimenziót, amelyen összefűzni kíván. Ehhez csak használja a „pd.concat” kifejezést, és adja át az adatkeretek listáját az összefűzéshez. Tekintsük az alábbi példát.

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) print (konkat)

Kimenet:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Amint a fentiekből látható, a két adatkeret egyetlen adatkeretbe van összeragasztva, ahol az index 2001-től kezdődik egészen 2008-ig. Ezután megadhatja a tengely = 1 értéket is az oszlopok csatlakozásához, egyesítéséhez vagy katatenálásához. Lásd az alábbi kódot:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], tengely = 1) nyomtatás (concat)

Kimenet:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80,0 50,0 2,0 NaN NaN NaN 2002 90,0 45,0 1,0 NaN NaN NaN 2003 70,0 45,0 2,0 NaN NaN NaN 2004 60,0 67,0 3,0 NaN NaN NaN 2004 60,0 67,0 3,0 NaN NaN NaN 2005 60 NaN NaN NaN 80,0 50,0 2,0 2006 NaN NaN NaN 90,0 45,0 1,0 2007 NaN NaN NaN 70,0 45,0 2,0 2008 NaN NaN NaN 60,0 67,0 3,0

Ahogy fentebb teheti, sok hiányzó érték van. Ez azért történik, mert az adatkeretek nem rendelkeztek értékekkel az összes indexhez, amelyen összefűzni szeretnénk. Ezért meg kell győződnie arról, hogy minden információ helyesen sorakozik fel, amikor csatlakozik vagy összefűz a tengelyhez.

Változtassa meg az indexet

Ezután a python pandas bemutatóban megértjük, hogyan lehet megváltoztatni az adatkeret indexértékeit. Hozzunk létre például egy adatkeretet néhány kulcsértékpárral egy szótárban, és változtassuk meg az index értékeit. Tekintsük az alábbi példát:

Nézzük meg, hogyan történik valójában:

importálja a pandákat, mint pd df = pd.DataFrame ({'Nap': [1,2,3,4], 'Látogatók': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df.set_index ('Nap', helyben = Igaz) print (df)

Kimenet:

Bounce_Rate látogatók 1. napja 20 200 2 45 100 3 60 230 4 10 300

Amint a fenti kimenetben észreveheti, az index értéke megváltozott a „Nap” oszlophoz képest.

Módosítsa az oszlopfejléceket

Változtassuk meg most ennek az python pandas bemutatónak az oszlopfejléceket. Vegyük ugyanezt a példát, ahol az oszlopfejlécet „Látogatók” -ról „Felhasználók” -ra változtatom. Tehát hadd valósítsam meg gyakorlatilag.

importálja a pandákat, mint pd df = pd.DataFrame ({'Nap': [1,2,3,4], 'Látogatók': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (oszlop = {'Látogatók': 'Felhasználók'}) print (df)

Kimenet:

Bounce_Rate napi felhasználók 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300

Amint a fentiekből látható, a „Látogatók” oszlopfejléc „Felhasználók” -ra változott. Ezután a python pandas bemutatóban végezzük el az adatok rágását.

példány változó a java példában

Data Munging

Az Adat munging alkalmazásban egy adott adatot más formátumba konvertálhat. Például, ha van .csv fájlja, konvertálhatja azt .html fájlba vagy bármely más adatformátumba is. Tehát hadd valósítsam meg ezt gyakorlatilag.

importálja a pandákat pd országként = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-ifjúsági-munkanélküliségAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

Miután futtatta ezt a kódot, létrejön egy HTML fájl, amelynek neve: edu.html. Közvetlenül másolhatja a fájl elérési útját, és beillesztheti a böngészőbe, amely HTML formátumban jeleníti meg az adatokat. Nézze meg az alábbi képernyőképet:


Ezután a python pandák bemutatójában nézzünk meg egy felhasználási esetet, amely a globális ifjúsági munkanélküliségről szól.

Python Pandas oktatóanyag: Eset a fiatalok munkanélküliségi adatainak elemzéséhez

Probléma nyilatkozat :Adatkészletet kap, amely a munkanélküli fiatalok százalékos arányát tartalmazza 2010 és 2014 között. Használnia kell ezt az adatkészletet, és meg kell találnia a fiatalok arányának változását minden országban 2010-2011 között.

Először is, értsük meg azt az adatkészletet, amely tartalmazza az oszlopokat: Országnév, Országkód és a 2010 és 2014 közötti év. Most pandákat használva a „pd.read_csv” szót fogjuk használni a .csv fájlformátumú fájl elolvasásához.
Nézze meg az alábbi képernyőképet:

Menjünk előre, és végezzünk adatelemzést, amelyben meg fogjuk deríteni a munkanélküli fiatalok százalékos változását 2010 és 2011 között. Ezután ugyanezt a könyvtár, amely egy erőteljes könyvtár a Pythonban való megjelenítéshez. Használható Python szkriptekben, shellekben, webalkalmazások szervereiben és más GUI eszköztárakban. Itt olvashat bővebben:

Most hajtsuk végre a kódot a PyCharm-ban:

import pandák pd-ként import matplotlib.pyplot mint plt a matplotlib import stílusból style.use ('fivethirtyeightight') country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-munkanélküliségAPI_ILO_country_YU.csv', index_col = 0) df = ország. fej (5) df = df.set_index (['Országkód']) sd = sd.reindex (oszlop = ['2010', '2011']) db = sd.diff (tengely = 1) db.plot (fajta = 'bar') plt.show ()

Mint fent láthatja, az elemzést az ország adatkeretének legfelső 5 során hajtottam végre. Ezután meghatároztam egy indexértéket: „Országkód”, majd újraindexelem az oszlopot 2010-re és 2011-re. Ezután van még egy db adatkeretünk, amely kinyomtatja a két oszlop közötti különbséget vagy a munkanélküli fiatalok százalékos változását 2010-től 2011-ig. Végül megrajzoltam egy sávtervet a Python Matplotlib könyvtárának felhasználásával.


Most, ha észrevette a fenti cselekményben, Afganisztánban (AFG) 2010 és 2011 között, a munkanélküli fiatalok száma kb. 0,25%. Aztán Angolában (AGO) negatív tendencia figyelhető meg, ami azt jelenti, hogy csökkent a munkanélküli fiatalok százaléka. Hasonlóképpen elemzést is végezhet különböző adatsorokon.

Remélem, hogy a „Python Pandas bemutató” című blogom releváns volt az Ön számára. Ha mélyreható ismereteket szeretne szerezni a pythonról és annak különböző alkalmazásokról, regisztrálhat élőben Edureka 24/7 támogatással és élethosszig tartó hozzáféréssel.

Van egy kérdésünk? Kérjük, említse meg ennek a „Python Pandas bemutató” blognak a megjegyzés rovatában, és a lehető leghamarabb kapcsolatba lépünk Önnel.