SUPERVISERET OG UOVERVÅGET LÆRING - TECHCODEVIEW.COM

Machine learning er et felt inden for datalogi, der giver computere mulighed for at lære uden at være eksplicit programmeret. Superviseret læring og uovervåget læring er to hovedtyper af maskinelæring .

I overvåget læring , er maskinen trænet på et sæt mærkede data, hvilket betyder, at inputdataene er parret med det ønskede output. Maskinen lærer derefter at forudsige outputtet for nye inputdata. Overvåget læring bruges ofte til opgaver som klassificering, regression og objektdetektion.

Ved uovervåget læring trænes maskinen på et sæt umærkede data, hvilket betyder, at inputdataene ikke er parret med det ønskede output. Maskinen lærer derefter at finde mønstre og sammenhænge i dataene. Uovervåget læring bruges ofte til opgaver som f.eks klyngedannelse , dimensionsreduktion og anomalidetektion.

Hvad er superviseret læring?

Superviseret læring er en form for maskinlæringsalgoritme der lærer af mærkede data. Mærket data er data, der er blevet mærket med et korrekt svar eller klassifikation.

Superviseret læring har, som navnet indikerer, tilstedeværelsen af en vejleder som lærer. Superviseret læring er, når vi underviser eller træner maskinen ved hjælp af data, der er velmærket. Hvilket betyder, at nogle data allerede er mærket med det rigtige svar. Derefter forsynes maskinen med et nyt sæt eksempler(data), så den overvågede læringsalgoritme analyserer træningsdataene(sæt af træningseksempler) og producerer et korrekt resultat ud fra mærkede data.

For eksempel vil et mærket datasæt med billeder af Elephant, Camel og Cow have hvert billede mærket med enten Elephant , Camelor Cow.

Superviseret-læring

Centrale punkter:

Overvåget læring involverer træning af en maskine fra mærkede data.
Mærket data består af eksempler med det korrekte svar eller klassifikation.
Maskinen lærer forholdet mellem input (frugtbilleder) og output (frugtetiketter).
Den trænede maskine kan derefter lave forudsigelser på nye, umærkede data.

Eksempel:

Lad os sige, at du har en frugtkurv, som du vil identificere. Maskinen ville først analysere billedet for at udtrække funktioner som dets form, farve og tekstur. Derefter ville den sammenligne disse funktioner med funktionerne i de frugter, den allerede har lært om. Hvis det nye billedes funktioner ligner mest et æbles, ville maskinen forudsige, at frugten er et æble.

skifte java

For eksempel , antag, at du får en kurv fyldt med forskellige slags frugter. Nu er det første skridt at træne maskinen med alle de forskellige frugter en efter en sådan:

Hvis objektets form er afrundet og har en fordybning i toppen, er rød i farven, vil det blive mærket som – Æble .
Hvis formen på objektet er en lang buet cylinder med grøn-gul farve, vil den blive mærket som – Banan .

Antag nu, at du efter træning af dataene har givet en ny separat frugt, sig Banan fra kurven, og bedt om at identificere den.

udskrivning af erklæring i java

Da maskinen allerede har lært tingene fra tidligere data og denne gang skal bruge det fornuftigt. Den vil først klassificere frugten med dens form og farve og bekræfter frugtnavnet som BANANA og placerer den i banankategorien. Således lærer maskinen tingene fra træningsdata (kurv med frugter) og anvender derefter viden til at teste data (ny frugt).

Typer af superviseret læring

Overvåget læring er klassificeret i to kategorier af algoritmer:

Regression : Et regressionsproblem er, når outputvariablen er en reel værdi, såsom dollars eller vægt.
Klassifikation : Et klassifikationsproblem er, når outputvariablen er en kategori, såsom Rød eller blå, sygdom eller ingen sygdom.

Superviseret læring beskæftiger sig med eller lærer med mærkede data. Dette indebærer, at nogle data allerede er mærket med det rigtige svar.

1- Regression

Regression er en form for overvåget læring, der bruges til at forudsige kontinuerlige værdier, såsom huspriser, aktiekurser eller kundeafgang. Regressionsalgoritmer lærer en funktion, der kortlægger fra inputfunktionerne til outputværdien.

Nogle almindelige regressionsalgoritmer omfatte:

Lineær regression
Polynomisk regression
Understøtte vektormaskineregression
Regression af beslutningstræ
Tilfældig skovregression

2- Klassificering

Klassifikation er en form for overvåget læring, der bruges til at forudsige kategoriske værdier, såsom om en kunde vil churne eller ej, om en e-mail er spam eller ej, eller om et medicinsk billede viser en tumor eller ej. Klassifikationsalgoritmer lærer en funktion, der kortlægger fra inputfunktionerne til en sandsynlighedsfordeling over outputklasserne.

Nogle almindelige klassifikationsalgoritmer omfatte:

Logistisk regression
Support Vector Machines
Beslutningstræer
Tilfældige skove
Naiv Baye

Evaluering af superviserede læringsmodeller

Evaluering af superviserede læringsmodeller er et vigtigt skridt for at sikre, at modellen er nøjagtig og generaliserbar. Der er en række forskellige målinger der kan bruges til at evaluere overvågede læringsmodeller, men nogle af de mest almindelige inkluderer:

Til regression

Mean Squared Error (MSE): MSE måler den gennemsnitlige kvadratiske forskel mellem de forudsagte værdier og de faktiske værdier. Lavere MSE-værdier indikerer bedre modelydelse.
Root Mean Squared Error (RMSE): RMSE er kvadratroden af MSE, der repræsenterer standardafvigelsen af forudsigelsesfejlene. I lighed med MSE indikerer lavere RMSE-værdier bedre modelydelse.
Gennemsnitlig absolut fejl (MAE): MAE måler den gennemsnitlige absolutte forskel mellem de forudsagte værdier og de faktiske værdier. Det er mindre følsomt over for outliers sammenlignet med MSE eller RMSE.
R-kvadrat (bestemmelseskoefficient): R-kvadrat måler andelen af variansen i målvariablen, der forklares af modellen. Højere R-kvadratværdier indikerer bedre modeltilpasning.

Til klassificering

Nøjagtighed: Nøjagtighed er procentdelen af forudsigelser, som modellen laver korrekt. Det beregnes ved at dividere antallet af korrekte forudsigelser med det samlede antal forudsigelser.
Præcision: Præcision er procentdelen af positive forudsigelser, som modellen laver, og som faktisk er korrekte. Det beregnes ved at dividere antallet af sande positive med det samlede antal positive forudsigelser.
Minde om: Recall er procentdelen af alle positive eksempler, som modellen identificerer korrekt. Det beregnes ved at dividere antallet af sande positive med det samlede antal positive eksempler.
F1 score: F1-score er et vægtet gennemsnit af præcision og genkaldelse. Det beregnes ved at tage det harmoniske middelværdi af præcision og genkald.
Forvirringsmatrix: En forvirringsmatrix er en tabel, der viser antallet af forudsigelser for hver klasse sammen med de faktiske klassebetegnelser. Det kan bruges til at visualisere modellens ydeevne og identificere områder, hvor modellen kæmper.

Anvendelser af superviseret læring

Superviseret læring kan bruges til at løse en lang række problemer, herunder:

Spamfiltrering: Overvågede læringsalgoritmer kan trænes til at identificere og klassificere spam-e-mails baseret på deres indhold, hvilket hjælper brugerne med at undgå uønskede beskeder.
Billedklassificering: Overvåget læring kan automatisk klassificere billeder i forskellige kategorier, såsom dyr, objekter eller scener, hvilket letter opgaver som billedsøgning, indholdsmoderering og billedbaserede produktanbefalinger.
Medicinsk diagnose: Overvåget læring kan hjælpe med medicinsk diagnose ved at analysere patientdata, såsom medicinske billeder, testresultater og patienthistorie, for at identificere mønstre, der tyder på specifikke sygdomme eller tilstande.
Opdagelse af svindel: Overvågede læringsmodeller kan analysere finansielle transaktioner og identificere mønstre, der indikerer svigagtig aktivitet, hvilket hjælper finansielle institutioner med at forhindre svig og beskytte deres kunder.
Naturlig sprogbehandling (NLP): Overvåget læring spiller en afgørende rolle i NLP-opgaver, herunder sentimentanalyse, maskinoversættelse og tekstresumé, hvilket gør det muligt for maskiner at forstå og behandle menneskeligt sprog effektivt.

Fordele ved Superviseret læring

Overvåget læring gør det muligt at indsamle data og producere dataoutput fra tidligere erfaringer.
Hjælper med at optimere præstationskriterier ved hjælp af erfaring.
Overvåget maskinlæring hjælper med at løse forskellige typer af regneproblemer i den virkelige verden.
Den udfører klassifikations- og regressionsopgaver.
Det gør det muligt at estimere eller kortlægge resultatet til en ny prøve.
Vi har fuldstændig kontrol over at vælge det antal klasser, vi ønsker i træningsdataene.

Ulemper ved superviseret læring

Klassificering af big data kan være udfordrende.
Træning til superviseret læring kræver meget regnetid. Så det kræver meget tid.
Overvåget læring kan ikke håndtere alle komplekse opgaver i Machine Learning.
Beregningstiden er enorm for overvåget læring.
Det kræver et mærket datasæt.
Det kræver en træningsproces.

Hvad er uovervåget læring?

Uovervåget læring er en type maskinlæring, der lærer af umærkede data. Det betyder, at dataene ikke har nogen allerede eksisterende etiketter eller kategorier. Målet med uovervåget læring er at opdage mønstre og sammenhænge i dataene uden nogen eksplicit vejledning.

Uovervåget læring er træning af en maskine ved at bruge information, der hverken er klassificeret eller mærket, og tillader algoritmen at handle på denne information uden vejledning. Her er maskinens opgave at gruppere usorteret information efter ligheder, mønstre og forskelle uden forudgående træning af data.

I modsætning til overvåget læring tilbydes der ingen lærer, hvilket betyder, at der ikke vil blive givet nogen træning til maskinen. Derfor er maskinen begrænset til selv at finde den skjulte struktur i umærkede data.

Du kan bruge uovervåget læring til at undersøge de dyredata, der er blevet indsamlet, og skelne mellem flere grupper i henhold til dyrenes egenskaber og handlinger. Disse grupperinger kan svare til forskellige dyrearter, hvilket giver dig mulighed for at kategorisere skabningerne uden at være afhængige af etiketter, der allerede findes.

Uovervåget læring

Centrale punkter

Uovervåget læring giver modellen mulighed for at opdage mønstre og sammenhænge i umærkede data.
Klyngealgoritmer grupperer lignende datapunkter sammen baseret på deres iboende karakteristika.
Funktionsekstraktion fanger væsentlig information fra dataene, hvilket gør det muligt for modellen at foretage meningsfulde sondringer.
Etikettilknytning tildeler kategorier til klyngerne baseret på de udtrukne mønstre og karakteristika.

Eksempel

Forestil dig, at du har en maskinlæringsmodel trænet på et stort datasæt af umærkede billeder, der indeholder både hunde og katte. Modellen har aldrig set et billede af en hund eller kat før, og den har ingen allerede eksisterende etiketter eller kategorier for disse dyr. Din opgave er at bruge uovervåget læring til at identificere hundene og kattene i et nyt, uset billede.

For eksempel , antag, at den får et billede med både hunde og katte, som den aldrig har set.

kører scripts i linux

Maskinen har således ingen idé om egenskaberne ved hunde og katte, så vi kan ikke kategorisere den som 'hunde og katte'. Men det kan kategorisere dem efter deres ligheder, mønstre og forskelle, dvs. vi kan nemt kategorisere ovenstående billede i to dele. Den første kan indeholde alle billeder med hunde i dem, og den anden del kan indeholde alle billeder med katte i dem. Her lærte du ikke noget før, hvilket betyder ingen træningsdata eller eksempler.

Det giver modellen mulighed for at arbejde på egen hånd for at opdage mønstre og information, der tidligere var uopdaget. Det beskæftiger sig primært med umærkede data.

Typer af uovervåget læring

Uovervåget læring er klassificeret i to kategorier af algoritmer:

Klynger : Et klyngeproblem er, hvor du vil opdage de iboende grupperinger i dataene, såsom gruppering af kunder efter købsadfærd.
Foreningen : Et problem med indlæring af associationsregler er, hvor du vil opdage regler, der beskriver store dele af dine data, såsom folk, der køber X, også har en tendens til at købe Y.

Klynger

Clustering er en form for uovervåget læring, der bruges til at gruppere lignende datapunkter sammen. Klyngealgoritmer arbejde ved iterativt at flytte datapunkter tættere på deres klyngecentre og længere væk fra datapunkter i andre klynger.

Eksklusiv (opdeling)
Agglomerativ
Overlappende
Probabilistisk

Klyngetyper: -

rujira banerjee

Hierarkisk klyngedannelse
K-betyder klyngedannelse
Hovedkomponentanalyse
Enkeltværdinedbrydning
Uafhængig komponentanalyse
Gaussiske blandingsmodeller (GMM'er)
Tæthedsbaseret rumlig klyngning af applikationer med støj (DBSCAN)

Foreningsregellæring

Association regellæring er en type uovervåget læring, der bruges til at identificere mønstre i en data. Foreningsregel læringsalgoritmer virker ved at finde relationer mellem forskellige elementer i et datasæt.

Nogle almindelige indlæringsalgoritmer for tilknytningsregler omfatter:

Apriori algoritme
Eclat-algoritme
FP-vækstalgoritme

Evaluering af ikke-overvågede læringsmodeller

Evaluering af ikke-superviserede læringsmodeller er et vigtigt skridt for at sikre, at modellen er effektiv og brugbar. Det kan dog være mere udfordrende end at evaluere superviserede læringsmodeller, da der ikke er nogen grundsandhedsdata at sammenligne modellens forudsigelser med.

Der er en række forskellige målinger, der kan bruges til at evaluere ikke-overvågede læringsmodeller, men nogle af de mest almindelige omfatter:

Silhouette score: Silhuetresultatet måler, hvor godt hvert datapunkt er grupperet med dets egne klyngemedlemmer og adskilt fra andre klynger. Det spænder fra -1 til 1, med højere score, der indikerer bedre klyngedannelse.
Calinski-Harabasz score: Calinski-Harabasz-scoren måler forholdet mellem variansen mellem klynger og variansen inden for klynger. Det spænder fra 0 til uendeligt, med højere score, der indikerer bedre klyngedannelse.
Justeret Rand-indeks: Det justerede Rand-indeks måler ligheden mellem to klynger. Det spænder fra -1 til 1, med højere score, der indikerer flere lignende klynger.
Davies-Bouldin indeks: Davies-Bouldin-indekset måler den gennemsnitlige lighed mellem klynger. Det spænder fra 0 til uendeligt, med lavere score, der indikerer bedre klyngedannelse.
F1 score: F1-scoren er et vægtet gennemsnit af præcision og genkaldelse, som er to målinger, der almindeligvis bruges i overvåget læring til at evaluere klassifikationsmodeller. F1-scoren kan dog også bruges til at evaluere ikke-superviserede læringsmodeller, såsom klyngemodeller.

Ansøgning af uovervåget læring

Ikke-superviseret læring kan bruges til at løse en lang række problemer, herunder:

Anomalidetektion: Uovervåget læring kan identificere usædvanlige mønstre eller afvigelser fra normal adfærd i data, hvilket muliggør detektering af svindel, indtrængen eller systemfejl.
Videnskabelig opdagelse: Uovervåget læring kan afdække skjulte relationer og mønstre i videnskabelige data, hvilket fører til nye hypoteser og indsigter inden for forskellige videnskabelige områder.
Anbefalingssystemer: Uovervåget læring kan identificere mønstre og ligheder i brugeradfærd og præferencer for at anbefale produkter, film eller musik, der stemmer overens med deres interesser.
Kundesegmentering: Uovervåget læring kan identificere grupper af kunder med lignende egenskaber, hvilket giver virksomheder mulighed for at målrette marketingkampagner og forbedre kundeservicen mere effektivt.
Billedanalyse: Uovervåget læring kan gruppere billeder baseret på deres indhold, hvilket letter opgaver som billedklassificering, objektgenkendelse og billedhentning.

Fordele af uovervåget læring

Det kræver ikke, at træningsdata skal mærkes.
Dimensionalitetsreduktion kan let opnås ved hjælp af uovervåget læring.
I stand til at finde hidtil ukendte mønstre i data.
Uovervåget læring kan hjælpe dig med at få indsigt fra umærkede data, som du måske ellers ikke havde kunnet få.
Uovervåget læring er god til at finde mønstre og sammenhænge i data uden at få at vide, hvad man skal kigge efter. Dette kan hjælpe dig med at lære nye ting om dine data.

Ulemper af uovervåget læring

Svært at måle nøjagtighed eller effektivitet på grund af mangel på foruddefinerede svar under træning.
Resultaterne har ofte mindre nøjagtighed.
Brugeren skal bruge tid på at tolke og mærke de klasser, der følger den klassifikation.
Uovervåget læring kan være følsomt over for datakvalitet, herunder manglende værdier, outliers og støjende data.
Uden mærkede data kan det være svært at evaluere ydeevnen af uovervågede læringsmodeller, hvilket gør det udfordrende at vurdere deres effektivitet.

Supervised vs Unsupervised Machine Learning

Parametre	Overvåget maskinlæring	Uovervåget maskinlæring
Input data	Algoritmer trænes ved hjælp af mærkede data.	Algoritmer bruges mod data, der ikke er mærket
Beregningsmæssig kompleksitet	Enklere metode	Beregningsmæssigt kompleks
Nøjagtighed	Meget præcis	Mindre præcist
Antal klasser	Antal klasser kendes	Antal klasser kendes ikke
Dataanalyse	Bruger offline analyse	Bruger realtidsanalyse af data
Algoritmer brugt	Lineær og logistisk regression, Random forest, multi-class klassificering, beslutningstræ, Support Vector Machine, Neural Network osv.	K-Means clustering, Hierarkisk clustering, KNN, Apriori algoritme osv.
Produktion	Ønsket output er angivet.	Ønsket output er ikke angivet.
Træningsdata	Brug træningsdata til at udlede modellen.	Der bruges ingen træningsdata.
Kompleks model	Det er ikke muligt at lære større og mere komplekse modeller end med superviseret læring.	Det er muligt at lære større og mere komplekse modeller med uovervåget læring.
Model	Vi kan teste vores model.	Vi kan ikke teste vores model.
Kaldes som	Superviseret læring kaldes også klassifikation.	Uovervåget læring kaldes også klyngedannelse.
Eksempel	Eksempel: Optisk tegngenkendelse.	Eksempel: Find et ansigt i et billede.
Overvågning	superviseret læring har brug for supervision for at træne modellen.	Uovervåget læring behøver ikke nogen supervision for at træne modellen.

Konklusion

Superviseret og uovervåget læring er to kraftfulde værktøjer, der kan bruges til at løse en lang række problemer. Superviseret læring er velegnet til opgaver, hvor det ønskede output er kendt, mens uovervåget læring er velegnet til opgaver, hvor det ønskede output er ukendt.

Ofte stillede spørgsmål (FAQ'er)

1. Hvad er forskellen mellem overvåget og uovervåget maskinsprog?

Superviseret og uovervåget læring er to grundlæggende tilgange til maskinlæring, der adskiller sig i deres træningsdata og læringsmål.
java returkommando

Superviseret læring involverer træning af en maskinlæringsmodel på et mærket datasæt, hvor hvert datapunkt har en tilsvarende etiket eller outputværdi. Algoritmen lærer at kortlægge inputdataene til det ønskede output, så den kan lave forudsigelser for nye, usete data.

Uovervåget læring , derimod omhandler umærkede datasæt, hvor datapunkterne ikke har tilknyttede etiketter eller outputværdier.

2. Hvad er superviseret læring?

Overvåget læring er en type maskinlæring, hvor algoritmen trænes på et mærket datasæt, hvor hvert datapunkt har en tilsvarende etiket eller outputværdi. Algoritmen lærer at kortlægge inputdataene til det ønskede output, så den kan lave forudsigelser for nye, usete data.

3. Hvad er almindelige overvågede læringsalgoritmer?

Almindelige overvågede læringsalgoritmer inkluderer:

Klassifikation: Bruges til at tildele kategorier til datapunkter. Eksempler omfatter støttevektormaskiner (SVM'er), logistisk regression og beslutningstræer.

Regression: Bruges til at forudsige kontinuerlige numeriske værdier. Eksempler inkluderer lineær regression, polynomiel regression og ridge-regression.

4. Hvad er almindelige uovervågede læringsalgoritmer?

Almindelige uovervågede læringsalgoritmer inkluderer:

Klynger: Gruppering af datapunkter i klynger baseret på deres lighed. Eksempler omfatter k-betyder clustering og hierarkisk clustering.

Dimensionalitetsreduktion: Reduktion af antallet af funktioner i et datasæt, samtidig med at de vigtigste oplysninger bevares. Eksempler omfatter principal komponent analyse (PCA) og autoencodere.

5. Hvad er uovervåget læring?

Uovervåget læring er en type maskinlæring, hvor algoritmen trænes på et umærket datasæt, hvor datapunkterne ikke har tilsvarende etiketter eller outputværdier. Algoritmen lærer at identificere mønstre og strukturer i dataene uden eksplicit vejledning.

6. Hvornår skal man bruge superviseret læring vs. uovervåget læring?

Brug overvåget læring, når du har et mærket datasæt og vil lave forudsigelser for nye data. Brug uovervåget læring, når du har et umærket datasæt og ønsker at identificere mønstre eller strukturer i dataene.