logo

Klassifikationsalgoritme i maskinlæring

Som vi ved, kan Supervised Machine Learning-algoritmen bredt klassificeres i regression og klassifikationsalgoritmer. I regressionsalgoritmer har vi forudsagt output for kontinuerte værdier, men for at forudsige de kategoriske værdier har vi brug for klassifikationsalgoritmer.

Hvad er klassifikationsalgoritmen?

Klassifikationsalgoritmen er en Supervised Learning-teknik, der bruges til at identificere kategorien af ​​nye observationer på basis af træningsdata. I Klassifikation lærer et program af det givne datasæt eller de givne observationer og klassificerer derefter ny observation i et antal klasser eller grupper. Såsom, Ja eller Nej, 0 eller 1, Spam eller Ikke Spam, kat eller hund, osv. Klasser kan kaldes som mål/etiketter eller kategorier.

java metoder

I modsætning til regression er outputvariablen for Klassifikation en kategori, ikke en værdi, såsom 'Grøn eller Blå', 'frugt eller dyr' osv. Da Klassifikationsalgoritmen er en overvåget læringsteknik, kræver den derfor mærkede inputdata, som betyder, at den indeholder input med det tilsvarende output.

I klassifikationsalgoritmen er en diskret outputfunktion(y) afbildet til inputvariabel(x).

 y=f(x), where y = categorical output 

Det bedste eksempel på en ML klassifikationsalgoritme er E-mail spam detektor .

Hovedformålet med klassifikationsalgoritmen er at identificere kategorien af ​​et givent datasæt, og disse algoritmer bruges hovedsageligt til at forudsige output for de kategoriske data.

Klassificeringsalgoritmer kan bedre forstås ved hjælp af nedenstående diagram. I nedenstående diagram er der to klasser, klasse A og klasse B. Disse klasser har funktioner, der ligner hinanden og ikke ligner andre klasser.

Klassifikationsalgoritme i maskinlæring

Algoritmen, der implementerer klassificeringen på et datasæt, er kendt som en klassifikator. Der er to typer klassifikationer:

    Binær klassificering:Hvis klassifikationsproblemet kun har to mulige udfald, kaldes det som binær klassifikator.
    Eksempler: JA eller NEJ, HAN eller KVIN, SPAM eller IKKE SPAM, KAT eller HUND osv.Multi-klasse klassificering:Hvis et klassifikationsproblem har mere end to udfald, kaldes det som Multi-class Classifier.
    Eksempel: Klassifikationer af typer af afgrøder, Klassifikation af typer af musik.

Elever i klassifikationsproblemer:

I klassifikationsopgaverne er der to typer elever:

    Dovne elever:Lazy Learner gemmer først træningsdatasættet og venter, indtil det modtager testdatasættet. I Lazy-elev-tilfælde udføres klassificering på basis af de mest relaterede data, der er gemt i træningsdatasættet. Det tager mindre tid i træning, men mere tid til forudsigelser.
    Eksempel: K-NN algoritme, Case-baseret ræsonnementIvrige elever:Ivrige elever udvikler en klassifikationsmodel baseret på et træningsdatasæt, før de modtager et testdatasæt. I modsætning til dovne elever tager Eager Learner mere tid på at lære og mindre tid på forudsigelse. Eksempel: Decision Trees, Nave Bayes, ANN.

Typer af ML-klassifikationsalgoritmer:

Klassifikationsalgoritmer kan yderligere opdeles i hovedsageligt to kategorier:

    Lineære modeller
    • Logistisk regression
    • Support Vector Machines
    Ikke-lineære modeller
    • K-Nærmeste Naboer
    • Kernel SVM
    • Navne Bayes
    • Klassifikation af beslutningstræ
    • Tilfældig skovklassifikation

Bemærk: Vi vil lære ovenstående algoritmer i senere kapitler.

Evaluering af en klassifikationsmodel:

Når vores model er færdig, er det nødvendigt at evaluere dens ydeevne; enten er det en klassifikations- eller regressionsmodel. Så for at evaluere en klassifikationsmodel har vi følgende måder:

1. Logtab eller krydsentropitab:

  • Det bruges til at evaluere ydeevnen af ​​en klassifikator, hvis output er en sandsynlighedsværdi mellem 0 og 1.
  • For en god binær klassifikationsmodel bør værdien af ​​logtab være tæt på 0.
  • Værdien af ​​logtab stiger, hvis den forudsagte værdi afviger fra den faktiske værdi.
  • Det lavere logtab repræsenterer modellens højere nøjagtighed.
  • For binær klassificering kan krydsentropi beregnes som:
 ?(ylog(p)+(1?y)log(1?p)) 

Hvor y = Faktisk output, p = forudsagt output.

2. Forvirringsmatrix:

  • Forvirringsmatricen giver os en matrix/tabel som output og beskriver modellens ydeevne.
  • Det er også kendt som fejlmatrixen.
  • Matricen består af forudsigelser resulterer i en opsummeret form, som har et samlet antal korrekte forudsigelser og ukorrekte forudsigelser. Matrixen ser ud som nedenstående tabel:
Faktisk positiv Faktisk negativ
Forudsagt positiv Ægte Positiv Falsk positiv
Forudsagt negativ Falsk negativ Ægte negativ
Klassifikationsalgoritme i maskinlæring

3. AUC-ROC kurve:

til loops java
  • ROC kurve står for Modtagerens driftskarakteristikkurve og AUC står for Område under kurven .
  • Det er en graf, der viser klassifikationsmodellens ydeevne ved forskellige tærskler.
  • For at visualisere ydeevnen af ​​multi-klasse klassifikationsmodellen bruger vi AUC-ROC kurven.
  • ROC-kurven er plottet med TPR og FPR, hvor TPR (True Positive Rate) på Y-aksen og FPR (False Positive Rate) på X-aksen.

Brug eksempler på klassifikationsalgoritmer

Klassifikationsalgoritmer kan bruges forskellige steder. Nedenfor er nogle populære eksempler på brug af klassifikationsalgoritmer:

  • E-mail Spam Detektion
  • Tale genkendelse
  • Identifikation af cancertumorceller.
  • Klassificering af stoffer
  • Biometrisk identifikation mv.