Milyen szempontokat kell figyelembe venni a Fisher-féle lineáris diszkriminancia analízis használatakor?
Ha az adatelemzés osztályozási feladatairól van szó, a Fisher-féle lineáris diszkriminanciaelemzés (FLDA) egy hatékony és széles körben használt technika. Fisher beszállítóként szemtanúja voltam a Fisher-hez kapcsolódó termékek gyakorlati alkalmazásának különböző iparágakban, és megértem a Fisher-féle lineáris diszkriminancia-analízis elméleti és gyakorlati vonatkozásait is. Ebben a blogban a Fisher-féle Lineáris Diszkriminancia Analízis osztályozási módszerének használatához kapcsolódó kulcsfontosságú szempontokat tárgyalom.
1. A Fisher-féle lineáris diszkriminancia analízis alapjainak megértése
A Fisher-féle lineáris diszkriminancia analízist Ronald A. Fisher fejlesztette ki 1936-ban. Az FLDA fő célja a tulajdonságok olyan lineáris kombinációjának megtalálása, amely maximalizálja a különböző osztályok közötti elkülönítést, miközben minimalizálja az egyes osztályokon belüli eltéréseket. Matematikailag, ha két osztályunk (C_1) és (C_2) van, akkor olyan vetületi vektort (\mathbf{w}) szeretnénk találni, hogy az osztályok közötti variancia és az osztályon belüli variancia aránya maximalizálva legyen.
Az osztályok közötti (S_B) és az osztályon belüli variancia (S_W) a következőképpen definiálható:
Legyen (\mathbf{m}_1) és (\mathbf{m}_2) a (C_1) és (C_2) osztály átlagvektorai, valamint (N_1) és (N_2) az egyes osztályok mintáinak száma.
(S_B=(\mathbf{m}_1 - \mathbf{m}_2)(\mathbf{m}_1 - \mathbf{m}2)^T)
(S_W=\sum{i\in C_1}(\mathbf{x}_i-\mathbf{m}_1)(\mathbf{x}_i - \mathbf{m}1)^T+\összeg{i\in C_2}(\mathbf{x}_i-\mathbf{m}_2)(\mathbf{x}_i - \mathbf{m}_2)^T)
Az optimális vetületi vektort (\mathbf{w}) a (\mathbf{w}=S_W^{-1}(\mathbf{m}_1 - \mathbf{m}_2)) adja meg.
Az FLDA alkalmazása előtt kulcsfontosságú, hogy világosan megértsük ezeket az alapfogalmakat. Ez a tudás segít az eredmények értelmezésében és a megfelelő döntések meghozatalában az osztályozási folyamat során.
2. Adatok előfeldolgozása
2.1 Funkció kiválasztása és kinyerése
A bemeneti funkciók minősége jelentős hatással van az FLDA teljesítményére. Az irreleváns vagy redundáns jellemzők növelhetik a számítási bonyolultságot és csökkenthetik az osztályozási pontosságot. Fisher beszállítóként tudom, hogy az ipari alkalmazásokban, például azokbanDvc2000 digitális szelepvezérlő, az adatok nagyszámú szenzorleolvasást tartalmazhatnak. A szelep működéséhez kapcsolódó legfontosabb jellemzők, például nyomás, áramlási sebesség és szelephelyzet kiválasztása javíthatja az FLDA hatékonyságát.
A jellemző kivonási technikák, mint például a főkomponens-elemzés (PCA), szintén használhatók az FLDA-val kombinálva. A PCA az eredeti jellemzőket új, nem korrelált változókká alakíthatja át, amelyek aztán felhasználhatók az FLDA bemeneteként. Ez csökkentheti az adatok dimenzióit, és hatékonyabbá teheti az osztályozási folyamatot.
2.2 Adatnormalizálás
Az FLDA érzékeny a bemeneti jellemzők léptékére. A nagy szórással rendelkező jellemzők uralhatják az elemzést, ami pontatlan eredményekhez vezethet. Ezért az FLDA alkalmazása előtt normalizálni kell az adatokat. A szokásos normalizálási módszerek közé tartozik a min - max normalizálás és a z - pontszám normalizálás.
A Min - max normalizálás egy rögzített tartományba skálázza az adatokat, általában ([0, 1]):
(x_{norm}=\frac{x - x_{min}}{x_{max}-x_{min}})
A Z - pontszám normalizálása szabványosítja az adatokat, hogy az átlag 0 és a szórása 1 legyen:
(x_{norm}=\frac{x-\mu}{\sigma})
ahol (\mu) a jellemző átlaga és (\sigma) a jellemző szórása.
3. A Fisher-féle lineáris diszkriminancia analízis feltevései
3.1. Az osztályok Gauss-eloszlása
Az FLDA feltételezi, hogy minden osztály Gauss-eloszlást követ. Valós alkalmazásokban ez a feltételezés nem mindig állja meg a helyét. Például abban az esetbenFisher 846 jeladó, a jelátalakítóból gyűjtött adatok nem Gauss-eloszlásúak lehetnek zaj vagy rendellenes működési körülmények miatt. A Gauss-feltevés megsértése esetén az FLDA teljesítménye romolhat. Ilyen esetekben az alternatív osztályozási módszerek, például a nem parametrikus módszerek vagy a kernel alapú módszerek megfelelőbbek lehetnek.
3.2 Egyenlő kovariancia mátrixok
Az FLDA azt is feltételezi, hogy minden osztálynak ugyanaz a kovarianciamátrixa. Ha ez a feltevés nem teljesül, előfordulhat, hogy a becsült vetületi vektor nem optimális. Ipari alkalmazásokban a különböző üzemmódok aFisher DLC3010 vezérlőkülönböző kovarianciamátrixokat eredményezhet a különböző osztályokhoz. A probléma megoldására az FLDA helyett a Quadratic Discriminant Analysis (QDA) is használható. A QDA lazítja az egyenlő kovariancia mátrix feltételezését, és jobb osztályozási teljesítményt biztosít, ha a kovariancia mátrixok eltérőek.
4. Modell értékelése és érvényesítése
4.1 Teljesítménymutatók
Az FLDA osztályozási alkalmazása után értékelni kell a modell teljesítményét. Az általános teljesítménymutatók közé tartozik a pontosság, precizitás, visszahívás és F1-pontszám.
A pontosság a helyesen osztályozott minták aránya:
(Pontosság=\frac{TP + TN}{TP+TN + FP+FN})
ahol (TP) a valódi pozitívak száma, (TN) a valódi negatívok száma, (FP) a hamis pozitívok száma, és (FN) a hamis negatívok száma.
A pontosság méri a valódi pozitívumok arányát az előre jelzett pozitívumok között:
(Precision=\frac{TP}{TP + FP})
Az Emlékezés azt méri, hogy a valódi pozitívak hány százaléka a tényleges pozitívumok között:
(Recall=\frac{TP}{TP+FN})
Az F1 - pontszám a pontosság és a visszahívás harmonikus átlaga:
(F1 – pontszám = 2\times\frac{Precision\times Recall}{Precision + Recall})
4.2 Kereszt – Érvényesítés
A keresztellenőrzés egy széles körben használt módszer a modellellenőrzésre. Ez magában foglalja az adatok több részhalmazra való felosztását, a modell betanítását az adatok egy részhalmazán, és a fennmaradó részhalmazon történő tesztelést. A gyakori keresztellenőrzési módszerek közé tartozik a k - fold - cross - validation és a hagyja - az egy - ki - keresztellenőrzés. A K - fold keresztellenőrzés az adatokat (k) egyenlő részhalmazokra osztja, és a modellt (k) alkalommal betanítják és tesztelik, minden alkalommal más részhalmazt használva teszthalmazként. A Leave - one - out keresztellenőrzés egy kivételével az összes mintát használja a képzéshez, a fennmaradó mintát pedig a teszteléshez.
5. Számítási komplexitás
Az FLDA számítási bonyolultsága a minták számától (N) és a jellemzők számától (d) függ. Az FLDA fő számítási lépései közé tartozik az átlagvektorok, a kovarianciamátrixok kiszámítása és a sajátvektor-probléma megoldása. A kovarianciamátrixok számításának időbonyolultsága (O(Nd^2)), a sajátvektor-probléma megoldásának időbonyolultsága pedig (O(d^3)).
A nagyméretű adatkészletekben a számítási költség jelentős probléma lehet. Fisher beszállítóként tudom, hogy az ipari vezérlőrendszerekhez kapcsolódó big data alkalmazásokban az adatmennyiség rendkívül nagy lehet. A számítási bonyolultság csökkentése érdekében olyan technikák használhatók, mint az inkrementális FLDA vagy a közelítő módszerek.
6. Többosztályos osztályozás
Bár az FLDA alapformáját bináris osztályozásra tervezték, kiterjeszthető többosztályos osztályozásra is. Az egyik elterjedt megközelítés a one - vs - rest (OvR) módszer, ahol minden osztályhoz egy bináris osztályozót tanítanak, amely megkülönbözteti az adott osztályt a többi osztálytól. Egy másik megközelítés az one - vs - one (OvO) módszer, ahol minden osztálypárra bináris osztályozót tanítanak.
Amikor az FLDA-t használó többosztályos osztályozással foglalkozunk, fontos figyelembe venni a bináris osztályozók száma és a számítási bonyolultság közötti kompromisszumot. Az OvR módszer kevesebb osztályozót igényel, de kevésbé pontos, míg az OvO módszer több osztályozót igényel, de bizonyos esetekben jobb teljesítményt nyújt.
Következtetés
A Fisher-féle lineáris diszkriminancia-elemzés értékes eszköz az osztályozási feladatokhoz, de számos tényező alapos mérlegelését igényli. Az adatok előfeldolgozásától a modellértékelésig minden lépés döntő szerepet játszik az osztályozási folyamat sikerében. Fisher beszállítóként tisztában vagyok az ipari alkalmazások gyakorlati kihívásaival és a megfelelő technikák alkalmazásának fontosságával az osztályozás pontosságának és hatékonyságának biztosítása érdekében.


Ha érdekli a Fisher lineáris diszkriminanciaelemzése az osztályozási feladataihoz, vagy Fisherhez kapcsolódó termékekre van szüksége, mint pl.Dvc2000 digitális szelepvezérlő,Fisher 846 jeladó, vagyFisher DLC3010 vezérlő, beszerzéssel és további megbeszélésekkel kapcsolatban forduljon hozzánk bizalommal.
Hivatkozások
- Fisher, RA (1936). Többféle mérés alkalmazása taxonómiai feladatokban. Annals of Eugenics, 7(2), 179-188.
- Bishop, CM (2006). Mintafelismerés és gépi tanulás. Springer.
- Duda, RO, Hart, PE és Stork, DG (2001). Minta osztályozás. Wiley.
