Mi a torzítás-eltérés a gépi tanulásban?



Ez a cikk az elfogultság és a variancia fogalmát tárgyalja a gépi tanulás során, a köztük lévő kapcsolattal meghatározva a modell prediktív pontosságát.

Ban ben , a modell teljesítménye az előrejelzésein és azon alapul, hogy mennyire általánosít a láthatatlan, független adatok felé. A modell pontosságának mérésének egyik módja az, ha figyelembe vesszük a modell torzítását és szórását. Ebben a cikkben megtudhatjuk, hogy az elfogultsági variancia hogyan játszik fontos szerepet a modell hitelességének meghatározásában. A cikk a következő témákat tárgyalja:

Irreducibilis hiba

Bármely modell új független, láthatatlan adathalmaz előrejelzési hibája alapján értékelik. A hiba nem más, mint a tényleges és a megjósolt kimenet közötti különbség. A hiba kiszámításához elvégezzük a redukálható és az irreducibilis hiba összegzését, azaz torzítás-variancia bontást.





A visszafordíthatatlan hiba nem más, mint azok a hibák, amelyeket nem lehet csökkenteni, függetlenül azoktól amelyet a modellben használ. Szokatlan változók okozzák, amelyek közvetlenül befolyásolják a kimeneti változót. Tehát annak érdekében, hogy a modelled hatékony legyen, marad a csökkenthető hiba, amelyet mindenáron optimalizálnunk kell.

A csökkenthető hibának két összetevője van - Elfogultság és eltérés , az elfogultság és a variancia jelenléte számos módon befolyásolja a modell pontosságát, például túlterhelés, alulrendelés stb.Vessünk egy pillantást az elfogultságra és a szórásra, hogy megértsük, hogyan kell kezelni a csökkenthető hibát .



Mi az elfogultság a gépi tanulásban?

Az elfogultság alapvetően az, hogy mennyire jósoltuk meg az értéket a tényleges értéktől. Azt mondjuk, hogy az elfogultság túl nagy, ha az átlagos előrejelzések messze vannak a tényleges értékektől.

A nagy torzítás hatására az algoritmus elmulasztja a domináns mintát vagy a bemeneti és kimeneti változók közötti kapcsolatot. Ha a torzítás túl nagy, akkor feltételezzük, hogy a modell meglehetősen egyszerű, és nem érzékeli az adatkészlet összetettségét a kapcsolat meghatározásához, és ígyalulteljesítést okoz.

Variancia egy gépi tanulási modellben?

Független, nem látott adathalmazon vagy érvényesítési készleten. Ha egy modell nem olyan jól teljesít, mint a betanított adatsorral, akkor fennáll annak a lehetősége, hogy a modell varianciával rendelkezik. Alapvetően elmondja, hogy az előrejelzett értékek mennyire vannak szétszórva a tényleges értékektől.



Az adatkészlet nagy szórása azt jelenti, hogy a modell rengeteg zajjal és irreleváns adattal edzett. Így túlterhelést okozva a modellben. Ha egy modell nagy szórással rendelkezik, akkor nagyon rugalmas lesz, és rossz előrejelzéseket tesz az új adatpontokra. Mivel ráhangolódott az edzéskészlet adatpontjaira.

Próbáljuk meg matematikailag is megérteni az elfogultság-variancia fogalmát. Legyen az a változó, amelyet előrejelezünk Y-nak, a többi független változó pedig X-nek. Most tegyük fel, hogy van kapcsolat a két változó között, így:

microsoft sql szerver oktatóanyagok kezdőknek

Y = f (X) + e

A fenti egyenletben itt van a becsült hiba egy 0. átlagos értékkel. Amikor egy osztályozót készítünk hasonló algoritmusok segítségével lineáris regresszió , , stb., a várható négyzethiba az x pontban a következő lesz:

tévedés (x) = torzítás2+ Variancia + irreducibilis hiba

Értsük meg azt is, hogy a torzítás-eltérés hogyan befolyásolja a Gépi tanulás modell teljesítményét.

mit csinál a formátum a pythonban

Hogyan befolyásolja a gépi tanulási modellt?

Az elfogultság-variancia kapcsolatát az alábbiakban felsorolt ​​négy kategóriába sorolhatjuk:

  1. Nagy szórás-nagy torzítás - A modell következetlen és átlagosan pontatlan is
  2. Alacsony variancia-nagy torzítás - A modellek következetesek, de átlagosan alacsonyak
  3. Nagy szórás - alacsony torzítás - kissé pontos, de ellentmondásos az átlagokban
  4. Alacsony variancia-alacsony torzítás - ideális forgatókönyv, a modell átlagosan következetes és pontos.

torzítás-szórás a gépi tanulásban-edureka

Bár az elfogultság és a variancia kimutatása egy modellben meglehetősen nyilvánvaló. A nagy szórású modelleknek alacsony az edzési és az érvényesítési hibájuk. Nagy torzítás esetén a modellnek nagy edzési hibája lesz, és az érvényesítési hiba megegyezik az edzési hibával.

Bár a felismerés könnyűnek tűnik, az igazi feladat a lehető legkisebbre csökkentése. Ebben az esetben a következőket tehetjük:

  • Adjon meg további beviteli szolgáltatásokat
  • Bonyolultabb a polinom jellemzőinek bevezetésével
  • Csökkentse a szabályosítási időt
  • További edzési adatok megszerzése

Most, hogy tudjuk, mi az elfogultság és a variancia, és hogyan befolyásolja a modellünket, vessünk egy pillantást az elfogultság-variancia kompromisszumra.

Elfogultság-variancia kompromisszum

A modell elfogultsága és szórása közötti megfelelő egyensúly megtalálását Bias-Variance kompromisszumnak nevezzük. Alapvetően ez annak a módja, hogy megbizonyosodjon arról, hogy a modellt semmiképpen sem túl, sem alul felszerelik.

Ha a modell túl egyszerű és nagyon kevés paramétert tartalmaz, akkor nagy torzítással és alacsony szórással jár. Másrészt, ha a modellnek nagy számú paramétere van, nagy lesz a szórása és alacsony az elfogultsága. Ennek a kompromisszumnak tökéletesen kiegyensúlyozott kapcsolatot kell eredményeznie a kettő között. Ideális esetben az alacsony torzítás és az alacsony szórás a cél bármely gépi tanulási modellnél.

Teljes hiba

Bármely gépi tanulási modellben az elfogultság és a variancia közötti jó egyensúly tökéletes forgatókönyvként szolgál a prediktív pontosság szempontjából, valamint a túlillesztés és az alul teljesítés elkerülése szempontjából. Az elfogultság és a variancia optimális egyensúlya az algoritmus bonyolultságát tekintve biztosítja, hogy a modellt soha ne illesszék túl vagy alul felszerelve.

A statisztikai modell átlagos négyzetes hibája a négyzet torzításának és a variancia és a hiba varianciájának az összege. Mindez beletehet egy totális hibába, ahol torzítás, variancia és irreducibilis hiba van a modellben.

Értsük meg, hogyan csökkenthetjük a teljes hibát egy gyakorlati megvalósítás segítségével.

Létrehoztuk a lineáris regresszió osztályozó ban,-ben Lineáris regresszió a gépi tanulásban cikk az Edurekáról a scikit tanulni könyvtár.

Az osztályozó átlagos négyzetes hibájának kiértékelésekor 2500 körüli teljes hibát kaptunk.

A teljes hiba csökkentése érdekében több adatot juttattunk el az osztályozóhoz, cserébe az átlag négyzet hibát 2000-re csökkentettük.

Ez egy egyszerű megvalósítás a teljes hiba csökkentésére azáltal, hogy több képzési adatot ad a modellnek. Hasonlóképpen más technikákat is alkalmazhatunk a hibák csökkentésére, valamint az elfogultság és a szórás egyensúlyának fenntartására egy hatékony gépi tanulási modell esetében.

Ezzel eljutottunk ennek a cikknek a végére, ahol megtanultuk a Bias-Variance-t a Mach-benine Tanulás annak megvalósításával és felhasználásával. Remélem tisztában van mindazzal, amit megosztott veled ebben az oktatóanyagban.

Ha relevánsnak találta ezt a cikket a „Bias-Variance In Machine Learning” témáról, nézze meg a egy megbízható online tanulási vállalat, amelynek több mint 250 000 elégedett tanulóból álló hálózata van az egész világon.

Azért vagyunk itt, hogy segítsünk az utazás minden lépésében, és kidolgozzunk egy tananyagot, amelyet olyan hallgatók és szakemberek számára tervezünk, akik szeretnének . A tanfolyamot úgy tervezték meg, hogy előrelépést nyújtson a Python programozásában, és kiképezze mind az alapvető, mind a haladó Python-koncepciókra a különféle megoldásokkal együtt tetszik , stb.

Ha bármilyen kérdése merülne fel, nyugodtan tegye fel minden kérdését a „Bias-Variance In Machine Learning” megjegyzés rovatban, és csapatunk örömmel válaszol.

hogyan lehet egy szinglett osztályt létrehozni java-ban