Zavarzási mátrix a gépi tanulásban: Egyablakos megoldás



Ez a cikk a Confusion Matrix-ra összpontosít, amely a gépi tanulási algoritmusok egyik legfontosabb szempontja annak pontosságának értékelésére.

Ban ben , általában 2 különböző típusú esetünk van, , és probléma. A Confusion Matrix segít a besorolási modell pontosságának kiszámításában, amely közvetett módon segít a besorolási modell teljesítményének leírásában. Ez a legfontosabb lépés a modell értékelésénél. A cikk a következő témákkal foglalkozik:

1. Mi az a zavartsági mátrix?





2. A zavartsági mátrix pontossága és összetevői

3. Pontosság, visszahívás és F-mérés



4. Zavarzási mátrix létrehozása a Python és az Sklearn használatával

Mi az a zavartsági mátrix?

A Confusion mátrix az előrejelzett eredmények és a tényleges eredmények összehasonlító összefoglalása bármely osztályozási probléma felhasználási esetben. Az összehasonlító összefoglaló rendkívül szükséges a modell teljesítményének meghatározásához, miután néhány képzési adattal betanították. Accuracy-Confusion-MatrixBináris osztályozás esetén a Confusion Matrix egy 2 × 2 mátrix, amely az alábbiakban látható
Előre jelzett 1. osztály értéke EG: 1 Megjósolt 2. osztály értéke EG: 0
Tényleges 1. osztály érték

EG: 1

TP (igaz pozitív) FN (hamis negatív)
A 2. osztály tényleges értéke



EG: 0

FP (hamis pozitív) TN (igaz negatív)

A fenti ábra alapján:
Nekünk van,

  • Az 1. osztály tényleges értéke = 1, amely hasonló a bináris eredmény pozitív értékéhez.
  • A 2. osztály tényleges értéke = 0, amely hasonló a bináris eredmény negatív értékéhez.

A zavaros mátrix bal oldali indexe alapvetően az aktuális értékeket, a felső oszlop pedig az előre jelzett értékeket jelöli.

Különböző összetevők léteznek, amikor létrehozunk egy zavartsági mátrixot. Az alkatrészeket az alábbiakban említjük

Pozitív (P): Az előrejelzett eredmény pozitív (példa: A kép egy macska)

Negatív (N): a megjósolt eredmény negatív (példa: A képek nem macskák)

Igaz pozitív (TP): Itt a TP alapvetően a megjósoltat jelzi, a tényleges érték pedig 1 (Igaz)

Igaz negatív (TN): Itt a TN jelzi a megjósoltat, a tényleges érték pedig 0 (hamis)

Hamis negatív (FN): Itt az FN azt jelzi, hogy a megjósolt érték 0 (negatív) és a tényleges érték 1. Itt mindkét érték nem egyezik. Ezért hamis negatív.

Hamis pozitív (FP): Itt az FP azt jelzi, hogy a megjósolt érték 1 (pozitív), a tényleges pedig 0. Itt ismételten mindkét érték nem egyezik. Ezért hamis pozitív.

A zavartsági mátrix pontossága és összetevői

Miután elkészült a zavaros mátrix, és meghatároztuk az összes komponens értékét, számunkra meglehetősen egyszerűvé válik a pontosság kiszámítása. Tehát nézzük meg az összetevőket, hogy ezt jobban megértsük.
  • Osztályozási pontosság

A fenti képlet alapján a TP (True Positive) és a TN (True Negative) összege a jósolt eredmény. Ezért a pontosság százalékos kiszámításához osztjuk az összes többi komponenssel. Van néhány probléma a pontossággal kapcsolatban, és nem függhetünk teljesen ettől.

Vegyük figyelembe, hogy az adatkészletünk teljesen kiegyensúlyozatlan. Ebben a forgatókönyvben a 98% -os pontosság jó vagy rossz lehet a probléma megállapítása alapján. Ezért van még néhány kulcsfontosságú kifejezésünk, amelyek segítenek abban, hogy biztosak legyünk a kiszámított pontosságban. A feltételek az alábbiak:

  • TPR (True Positive Rate) vagy érzékenység:

A Valódi pozitív arány, amelyet érzékenységnek is neveznek, a valódi pozitív százalék százalékát méri a teljes tényleges pozitívumhoz viszonyítva, amelyet (TP + FN) jelöl.

hogyan kell használni a python anakondát
Előre jelzett 1. osztály értéke EG: 1 Megjósolt 2. osztály értéke EG: 0 Teljes
Tényleges 1. osztály érték

EG: 1

TP (igaz pozitív) FN (hamis negatív) Összes tényleges pozitív
A 2. osztály tényleges értéke

EG: 0

FP (hamis pozitív)TN (igaz negatív)Összes tényleges negatív
TPR = Igaz pozitív / (Igaz pozitív + Hamis negatív
  • TNR (True Negative Rate) vagy specifitás:

A True Negative Rate vagy a Specificity a tényleges negatív arányát méri a teljes negatívhoz viszonyítva

Előre jelzett 1. osztály értéke EG: 1 Megjósolt 2. osztály értéke EG: 0 Teljes
Tényleges 1. osztály érték

EG: 1

TP (igaz pozitív)FN (hamis negatív)Összes tényleges pozitív
A 2. osztály tényleges értéke

EG: 0

FP (hamis pozitív) TN (igaz negatív) Összes tényleges negatív

TNR = igaz negatív / (igaz negatív + hamis pozitív)

  • Hamis pozitív arány (FPR):

A hamis pozitív arány az előre jelzett hamis pozitív (FP) százalékos aránya az előre jelzett pozitív eredmények teljes számához (TP + FP).

Előre jelzett 1. osztály értéke EG: 1 Megjósolt 2. osztály értéke EG: 0
Tényleges 1. osztályú érték EG: 1 TP (igaz pozitív) FN (hamis negatív)
2. tényleges osztály EG értéke: 0 FP (hamis pozitív) TN (igaz negatív)
Az összes becsült pozitív összeg összege Az összes becsült negatív összege
FPR = hamis pozitív / (hamis pozitív + hamis pozitív)
  • Hamis negatív arány (FNR):

A hamis negatív arány az előre jelzett hamis negatív (FP) százalékos aránya az előre jelzett negatív eredmények teljes számához (TN + FN).

Előre jelzett 1. osztály értéke EG: 1 Megjósolt 2. osztály értéke EG: 0
Tényleges 1. osztályú érték EG: 1TP (igaz pozitív) FN (hamis negatív)
2. tényleges osztály EG értéke: 0FP (hamis pozitív) TN (igaz negatív)
Az összes becsült pozitív összeg összege Az összes becsült negatív összege
FNR = hamis negatív / (hamis negatív + igaz negatív)

Pontosság, visszahívás és F-mérés

  • Visszahívás:

A visszahívás hasonló a valódi pozitív arányhoz, és ez a helyesen megjósolt pozitív értékek (TP) és az összes pozitív érték aránya.

  • Pontosság:

A Precízió alapvetően az összes olyan pontot jelzi, amelyet a modell pozitívnak jósolt, és hogy valójában hány százalékuk pozitív.

A Precision és a Recall olyan mérési eredmények, amelyek a pozitív osztályra összpontosítanak, amint azt a fenti képletek mutatják.

  • F-mérés

Tehát az F-Measure egy olyan technika, amely egyesíti a Precision és a Recall technikákat, és a szokásos számtani átlag helyett Harmonikus átlagot használ, amely miatt a szélső értékeket büntetik. Az F-mértéket F1-pontszámnak is nevezik, és az alábbi képlet adja meg.

Vegyünk egy példát, és nézzük meg, hogyan számíthatjuk ki a Pontosságot, a Precíziót, a Felidézést és az F1-pontszámot.

N = 165 Jósolt IGEN Jósolt NEM
Tényleges IGEN TP = 150 FN = 10
Jelenlegi NO FP = 20 TN = 100
    • Pontosság = (TP + TN) / (TP + TN + FP + FN) = (150 + 100) / (150 + 100 + 20 + 10) = 0,89
    • Visszahívás = TP / (TP + FN) = 150 / (150 + 10) = 0,93
    • Pontosság: TP / (TP + FP) = 150 / (150 + 20) = 0,88

hadoop adminisztrátori szerepek és felelősségek
  • F-mérték = (2 * Visszahívás * Precízió) / (Visszahívás + Előzetes) = (2 * 0,93 * 0,88) / (0,93 + 0,88) = 0,90

Konfúziós mátrix létrehozása a Python és az Sklearn használatával

Most látni fogunk egy példát arra, hogyan hozhatunk létre zavart mátrixot a python segítségével a sklearn könyvtárral együtt.

egy. Kezdetben létrehozunk néhány listát a tényleges adatokról, és az előrejelzések szerint ellenőrizzük a pontosságot az alábbiak szerint

# Python szkript a zavaros mátrix létrehozásához. tényleges_adatok = [1, 1, 0, 1, 0, 0, 1, 0, 0, 0,1, 0, 1] előrejelzett adatok = [0, 1, 1, 1, 0, 0, 1, 0, 1, 0,1,0,1]

2. Importálnunk kell a zavaros mátrixot a sklearn könyvtárból, az alábbiak szerint:

a sklearn.metrics fájlból importálja a confusion_matrix fájlt

3. Ezután létrehozzuk a zavartsági mátrixot az alábbiak szerint:

végleges_eredmények = zavartsági mátrix (tényleges_adatok, előrejelzett_adatok)

Négy. Most folytathatjuk és kiszámíthatjuk a pontosságot a könyvtár importálásával az alábbiak szerint:

from sklearn.metrics import pontosság_pontszám pontosság = pontosság_pontszám (tényleges_adatok, előrejelzett_adatok)

5. Végül kiszámoljuk az F1-pontszámot vagy az F-mértéket az alábbiak szerint:

from sklearn.metrics importálás osztályozás_jelentés jelentés = osztályozás_jelentés (tényleges_adatok, előrejelzett_adatok)

Az alábbiakban a teljes kód található:

tényleges_adatok = [1, 1, 0, 1, 0, 0, 1, 0, 0, 0,1, 0, 1] előrejelzett adatok = [0, 1, 1, 1, 0, 0, 1, 0, 1, 0,1,0,1] a sklearn.metrics-ból importálás confusion_matrix végleges_eredmények = confusion_matrix (tényleges_adatok, előrejelzett_adatok) nyomtatás (final_results) a sklearn-ről. tényleges_adatok, előrejelzett_adatok) nyomtatás (pontosság) nyomtatás (jelentés)

matrix

Tehát ezzel a cikk végére értünk. Remélem, hogy a zavartsági mátrixszal kapcsolatos összes zavart feloldotta.

Edureka's segít szaktudást szerezni a különféle gépi tanulási algoritmusokban, mint például a regresszió, a klaszterezés, a döntési fák, a random erdő, a Naiv Bayes és a Q-Learning. Ez a gépi tanulás a Python Training segítségével a Statisztika, az Idősorok és a gépi tanulási algoritmusok különböző osztályainak, például a felügyelt, felügyelet nélküli és a megerősítő algoritmusoknak teszi lehetővé. A Data Science Certification Course során valós esettanulmányokat fog megoldani a média, az egészségügy, a szociális média, a repülés, a HR területén.