Ban ben , általában 2 különböző típusú esetünk van, , és probléma. A Confusion Matrix segít a besorolási modell pontosságának kiszámításában, amely közvetett módon segít a besorolási modell teljesítményének leírásában. Ez a legfontosabb lépés a modell értékelésénél. A cikk a következő témákkal foglalkozik:
2. A zavartsági mátrix pontossága és összetevői
3. Pontosság, visszahívás és F-mérés
4. Zavarzási mátrix létrehozása a Python és az Sklearn használatával
Mi az a zavartsági mátrix?
A Confusion mátrix az előrejelzett eredmények és a tényleges eredmények összehasonlító összefoglalása bármely osztályozási probléma felhasználási esetben. Az összehasonlító összefoglaló rendkívül szükséges a modell teljesítményének meghatározásához, miután néhány képzési adattal betanították. Bináris osztályozás esetén a Confusion Matrix egy 2 × 2 mátrix, amely az alábbiakban láthatóElőre jelzett 1. osztály értéke EG: 1 | Megjósolt 2. osztály értéke EG: 0 | |
Tényleges 1. osztály érték EG: 1 | TP (igaz pozitív) | FN (hamis negatív) |
A 2. osztály tényleges értéke EG: 0 | FP (hamis pozitív) | TN (igaz negatív) |
A fenti ábra alapján:
Nekünk van,
- Az 1. osztály tényleges értéke = 1, amely hasonló a bináris eredmény pozitív értékéhez.
- A 2. osztály tényleges értéke = 0, amely hasonló a bináris eredmény negatív értékéhez.
A zavaros mátrix bal oldali indexe alapvetően az aktuális értékeket, a felső oszlop pedig az előre jelzett értékeket jelöli.
Különböző összetevők léteznek, amikor létrehozunk egy zavartsági mátrixot. Az alkatrészeket az alábbiakban említjük
Pozitív (P): Az előrejelzett eredmény pozitív (példa: A kép egy macska)
Negatív (N): a megjósolt eredmény negatív (példa: A képek nem macskák)
Igaz pozitív (TP): Itt a TP alapvetően a megjósoltat jelzi, a tényleges érték pedig 1 (Igaz)
Igaz negatív (TN): Itt a TN jelzi a megjósoltat, a tényleges érték pedig 0 (hamis)
Hamis negatív (FN): Itt az FN azt jelzi, hogy a megjósolt érték 0 (negatív) és a tényleges érték 1. Itt mindkét érték nem egyezik. Ezért hamis negatív.
Hamis pozitív (FP): Itt az FP azt jelzi, hogy a megjósolt érték 1 (pozitív), a tényleges pedig 0. Itt ismételten mindkét érték nem egyezik. Ezért hamis pozitív.
A zavartsági mátrix pontossága és összetevői
Miután elkészült a zavaros mátrix, és meghatároztuk az összes komponens értékét, számunkra meglehetősen egyszerűvé válik a pontosság kiszámítása. Tehát nézzük meg az összetevőket, hogy ezt jobban megértsük.- Osztályozási pontosság
A fenti képlet alapján a TP (True Positive) és a TN (True Negative) összege a jósolt eredmény. Ezért a pontosság százalékos kiszámításához osztjuk az összes többi komponenssel. Van néhány probléma a pontossággal kapcsolatban, és nem függhetünk teljesen ettől.
Vegyük figyelembe, hogy az adatkészletünk teljesen kiegyensúlyozatlan. Ebben a forgatókönyvben a 98% -os pontosság jó vagy rossz lehet a probléma megállapítása alapján. Ezért van még néhány kulcsfontosságú kifejezésünk, amelyek segítenek abban, hogy biztosak legyünk a kiszámított pontosságban. A feltételek az alábbiak:
- TPR (True Positive Rate) vagy érzékenység:
A Valódi pozitív arány, amelyet érzékenységnek is neveznek, a valódi pozitív százalék százalékát méri a teljes tényleges pozitívumhoz viszonyítva, amelyet (TP + FN) jelöl.
hogyan kell használni a python anakondát
Előre jelzett 1. osztály értéke EG: 1 | Megjósolt 2. osztály értéke EG: 0 | Teljes | |
Tényleges 1. osztály érték EG: 1 | TP (igaz pozitív) | FN (hamis negatív) | Összes tényleges pozitív |
A 2. osztály tényleges értéke EG: 0 | FP (hamis pozitív) | TN (igaz negatív) | Összes tényleges negatív |
- TNR (True Negative Rate) vagy specifitás:
A True Negative Rate vagy a Specificity a tényleges negatív arányát méri a teljes negatívhoz viszonyítva
Előre jelzett 1. osztály értéke EG: 1 | Megjósolt 2. osztály értéke EG: 0 | Teljes | |
Tényleges 1. osztály érték EG: 1 | TP (igaz pozitív) | FN (hamis negatív) | Összes tényleges pozitív |
A 2. osztály tényleges értéke EG: 0 | FP (hamis pozitív) | TN (igaz negatív) | Összes tényleges negatív |
TNR = igaz negatív / (igaz negatív + hamis pozitív)
- Hamis pozitív arány (FPR):
A hamis pozitív arány az előre jelzett hamis pozitív (FP) százalékos aránya az előre jelzett pozitív eredmények teljes számához (TP + FP).
Előre jelzett 1. osztály értéke EG: 1 | Megjósolt 2. osztály értéke EG: 0 | |
Tényleges 1. osztályú érték EG: 1 | TP (igaz pozitív) | FN (hamis negatív) |
2. tényleges osztály EG értéke: 0 | FP (hamis pozitív) | TN (igaz negatív) |
Az összes becsült pozitív összeg összege | Az összes becsült negatív összege |
- Hamis negatív arány (FNR):
A hamis negatív arány az előre jelzett hamis negatív (FP) százalékos aránya az előre jelzett negatív eredmények teljes számához (TN + FN).
Pontosság, visszahívás és F-mérés
- Visszahívás:
A visszahívás hasonló a valódi pozitív arányhoz, és ez a helyesen megjósolt pozitív értékek (TP) és az összes pozitív érték aránya.
- Pontosság:
A Precízió alapvetően az összes olyan pontot jelzi, amelyet a modell pozitívnak jósolt, és hogy valójában hány százalékuk pozitív.
A Precision és a Recall olyan mérési eredmények, amelyek a pozitív osztályra összpontosítanak, amint azt a fenti képletek mutatják.
- F-mérés
Tehát az F-Measure egy olyan technika, amely egyesíti a Precision és a Recall technikákat, és a szokásos számtani átlag helyett Harmonikus átlagot használ, amely miatt a szélső értékeket büntetik. Az F-mértéket F1-pontszámnak is nevezik, és az alábbi képlet adja meg.
Vegyünk egy példát, és nézzük meg, hogyan számíthatjuk ki a Pontosságot, a Precíziót, a Felidézést és az F1-pontszámot.
N = 165 | Jósolt IGEN | Jósolt NEM |
Tényleges IGEN | TP = 150 | FN = 10 |
Jelenlegi NO | FP = 20 | TN = 100 |
- Pontosság = (TP + TN) / (TP + TN + FP + FN) = (150 + 100) / (150 + 100 + 20 + 10) = 0,89
- Visszahívás = TP / (TP + FN) = 150 / (150 + 10) = 0,93
- Pontosság: TP / (TP + FP) = 150 / (150 + 20) = 0,88
hadoop adminisztrátori szerepek és felelősségek
- F-mérték = (2 * Visszahívás * Precízió) / (Visszahívás + Előzetes) = (2 * 0,93 * 0,88) / (0,93 + 0,88) = 0,90
Konfúziós mátrix létrehozása a Python és az Sklearn használatával
Most látni fogunk egy példát arra, hogyan hozhatunk létre zavart mátrixot a python segítségével a sklearn könyvtárral együtt.
egy. Kezdetben létrehozunk néhány listát a tényleges adatokról, és az előrejelzések szerint ellenőrizzük a pontosságot az alábbiak szerint
# Python szkript a zavaros mátrix létrehozásához. tényleges_adatok = [1, 1, 0, 1, 0, 0, 1, 0, 0, 0,1, 0, 1] előrejelzett adatok = [0, 1, 1, 1, 0, 0, 1, 0, 1, 0,1,0,1]
2. Importálnunk kell a zavaros mátrixot a sklearn könyvtárból, az alábbiak szerint:
a sklearn.metrics fájlból importálja a confusion_matrix fájlt
3. Ezután létrehozzuk a zavartsági mátrixot az alábbiak szerint:
végleges_eredmények = zavartsági mátrix (tényleges_adatok, előrejelzett_adatok)
Négy. Most folytathatjuk és kiszámíthatjuk a pontosságot a könyvtár importálásával az alábbiak szerint:
from sklearn.metrics import pontosság_pontszám pontosság = pontosság_pontszám (tényleges_adatok, előrejelzett_adatok)
5. Végül kiszámoljuk az F1-pontszámot vagy az F-mértéket az alábbiak szerint:
from sklearn.metrics importálás osztályozás_jelentés jelentés = osztályozás_jelentés (tényleges_adatok, előrejelzett_adatok)
Az alábbiakban a teljes kód található:
tényleges_adatok = [1, 1, 0, 1, 0, 0, 1, 0, 0, 0,1, 0, 1] előrejelzett adatok = [0, 1, 1, 1, 0, 0, 1, 0, 1, 0,1,0,1] a sklearn.metrics-ból importálás confusion_matrix végleges_eredmények = confusion_matrix (tényleges_adatok, előrejelzett_adatok) nyomtatás (final_results) a sklearn-ről. tényleges_adatok, előrejelzett_adatok) nyomtatás (pontosság) nyomtatás (jelentés)
Tehát ezzel a cikk végére értünk. Remélem, hogy a zavartsági mátrixszal kapcsolatos összes zavart feloldotta.
Edureka's segít szaktudást szerezni a különféle gépi tanulási algoritmusokban, mint például a regresszió, a klaszterezés, a döntési fák, a random erdő, a Naiv Bayes és a Q-Learning. Ez a gépi tanulás a Python Training segítségével a Statisztika, az Idősorok és a gépi tanulási algoritmusok különböző osztályainak, például a felügyelt, felügyelet nélküli és a megerősítő algoritmusoknak teszi lehetővé. A Data Science Certification Course során valós esettanulmányokat fog megoldani a média, az egészségügy, a szociális média, a repülés, a HR területén.