logo

Gini-indeks i maskinlæring

Introduktion

Maskinlæring har reformeret måden, hvorpå vi behandler og undersøger data, og beslutningstræalgoritmer er en berømt beslutning for klassificerings- og regressionsopgaver. Gini-indekset, ellers kaldet Gini-urenheden eller Gini-koefficienten, er et væsentligt urenhedsmål, der bruges i beslutningstræalgoritmer. I denne artikel vil vi undersøge ideen om Gini Index udtømmende, dets numeriske formel og dets anvendelser i maskinlæring. Vi vil ligeledes sammenligne Gini-indekset og andre urenhedsmålinger, tale om dets begrænsninger og fordele og inspicere kontekstuelle analyser af dets applikationer i den virkelige verden. Langt om længe vil vi præsentere fremtidens lejer for forskning her omkring.

Hvad er Gini Index?

Gini-indekset er en andel af urenhed eller ulighed i statistiske og monetære omgivelser. I maskinlæring bruges det som et urenhedsmål i beslutningstræalgoritmer til klassificeringsopgaver. Gini-indekset måler sandsynligheden for, at en tilfældigt udvalgt test bliver fejlklassificeret af en beslutningstræalgoritme, og dens værdi går fra 0 (perfekt ren) til 1 (perfekt uren).

Gini Index Formel

Gini-indekset er en andel af urenheden eller uligheden i en cirkulation, der regelmæssigt bruges som et urenhedsmål i beslutningstræalgoritmer. Med hensyn til beslutningstræer bruges Gini-indekset til at bestemme den bedste funktion til at opdele dataene på ved hver knude i træet.

Formlen for Gini Index er som i følgende:

Gini-indeks i maskinlæring

hvor pi er sandsynligheden for, at en ting har en plads med en bestemt klasse.

For eksempel bør vi overveje et binært klassifikationsproblem med to klasser An og B. Hvis sandsynligheden for klasse An er p og sandsynligheden for klasse B er (1-p), kan Gini-indekset beregnes som :

Værdien af ​​Gini-indekset går fra 0,0 til 0,5 for binære klassifikationsproblemer, hvor 0,0 viser en perfekt ren node (alle eksempler har en plads med en lignende klasse) og 0,5 viser en perfekt uren node (tests er ligeligt fordelt på tværs af de to klasser ).

Brug af Gini Index i klassifikationsproblemer

Gini-indekset bruges generelt som et urenhedsmål i beslutningstræalgoritmer til klassificeringsproblemer. I beslutningstræer adresserer hver node et element, og målet er at opdele dataene i delmængder, der i det væsentlige er så rene, som man kunne forvente. Urenhedsmålet (som Gini-indekset) bruges til at bestemme den bedste split ved hver node.

For at illustrere dette bør vi overveje et eksempel på et beslutningstræ for et binært klassifikationsproblem. Træet har to elementer: alder og indkomst, og målet er at forudse, uanset om en person sandsynligvis vil købe en vare. Træet er konstrueret ved at bruge Gini-indekset som urenhedsmål.

Ved rodknuden beregnes Gini-indekset ud fra sandsynligheden for, at eksemplerne har en plads med klasse 0 eller klasse 1. Noden er opdelt i forhold til den komponent, der udfalder i det mest forhøjede fald i Gini-indekset. Denne cyklus omhaskes rekursivt for hver delmængde, indtil et stopmål er opfyldt.

Beslutningstræer

Et beslutningstræ er en velkendt maskinlæringsalgoritme, der bruges til både klassifikations- og regressionsopgaver. En model arbejdes ved rekursivt at opdele datasættet i mere beskedne delmængder i lyset af værdierne af info-højdepunkterne, bestemt for at begrænse urenheden af ​​de efterfølgende delmængder.

Ved hver knude i træet træffes en beslutning i lyset af værdierne af et af info-højdepunkterne, med det endelige mål, at de efterfølgende undersæt grundlæggende er så rene, som man virkelig kunne forvente. Renheden af ​​en delmængde estimeres regelmæssigt af et urenhedsmål, for eksempel Gini-indekset eller entropien.

Beslutningstræalgoritmen kan bruges til både binære og multi-klasse klassifikationsopgaver samt regressionsopgaver. I binære klassifikationsopgaver opdeler beslutningstræet datasættet i to undersæt i lyset af værdien af ​​en binær funktion, f.eks. ja eller nej. I multi-class klassifikationsopgaver opdeler beslutningstræet datasættet i adskillige delmængder i lyset af værdierne af en lige ud funktion, som rød, grøn eller blå.

Gini-indeks vs andre urenhedsmålinger

Udover Gini-indekset er der andre urenhedsmål, der normalt bruges i beslutningstræalgoritmer, for eksempel entropi og informationsforøgelse.

Entropi:

I maskinlæring er entropi en del af uregelmæssigheden eller sårbarheden i en masse data. Det bruges generelt som et urenhedsmål i beslutningstræalgoritmer sammen med Gini-indekset.

I beslutningstræalgoritmer bruges entropi til at bestemme den bedste komponent at opdele dataene på ved hver knude i træet. Målet er at finde det element, der giver det største fald i entropi, som relaterer sig til den komponent, der giver mest information om klassifikationsspørgsmålet.

Gini-indeks i maskinlæring

Mens entropi og Gini-indekset begge normalt bruges som urenhedsmål i beslutningstræalgoritmer, har de forskellige egenskaber. Entropi er mere sart for cirkulationen af ​​klassenavne og vil generelt levere mere tilpassede træer, mens Gini-indekset er mindre følsomt for tilegnelsen af ​​klassemærker og generelt vil skabe mere begrænsede træer med færre kløfter. Beslutningen om urenhedsforanstaltning afhænger af det særlige problem og dataenes egenskaber.

Informationsgevinst:

Informationsgevinst er en handling, der bruges til at vurdere karakteren af ​​en opdeling, mens der bygges et beslutningstræ. Formålet med et beslutningstræ er at opdele dataene i delmængder, der grundlæggende er lige så homogene som tænkelige som for den objektive variabel, så det efterfølgende træ kan bruges til at stille præcise forventninger til nye data. Informationsforøgelse måler faldet i entropi eller urenhed, der opnås ved en opdeling. Funktionen med den mest bemærkelsesværdige informationsforøgelse er valgt som den bedste funktion at opdele på ved hver knude i beslutningstræet.

Informationsgevinst er et normalt involveret mål til at vurdere karakteren af ​​spaltninger i beslutningstræer, men det er ikke det, der skal fokuseres på. Forskellige mål, for eksempel Gini-indekset eller fejlklassificeringsraten, kan ligeledes anvendes. Beslutningen om opdeling af grundlag afhænger af hovedproblemet og attributterne for det datasæt, der anvendes.

Eksempel på Gini-indeks

Vi bør overveje et binært klassifikationsproblem, hvor vi har et datasæt med 10 eksempler med to klasser: 'Positiv' og 'Negativ'. Ud af de 10 eksempler har 6 en plads med klassen 'Positiv' og 4 har en plads med klassen 'Negative'.

For at beregne Gini-indekset for datasættet beregner vi indledningsvis sandsynligheden for hver klasse:

p_1 = 6/10 = 0,6 (positiv)

p_2 = 4/10 = 0,4 (negativ)

Så på det tidspunkt bruger vi Gini Index-formlen til at beregne urenheden af ​​datasættet:

Gini(S) = 1 - (p_1^2 + p_2^2)

= 1 - (0,6^2 + 0,4^2)

= 0,48

Så Gini-indekset for datasættet er 0,48.

Antag nu, at vi skal opdele datasættet på et element 'X', der har to potentielle værdier: 'A' og 'B'. Vi opdeler datasættet i to undersæt i lyset af komponenten:

Delmængde 1 (X = A): 4 positiv, 1 negativ

Delmængde 2 (X = B): 2 positive, 3 negative

For at beregne faldet i Gini-indekset for denne opdeling, beregner vi indledningsvis Gini-indekset for hver delmængde:

Gini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32

Gini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48

Derefter bruger vi informationsforøgelsesformlen til at beregne faldet i Gini-indekset:

IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))

= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))

= 0,08

Så informationsgevinsten (dvs. fald i Gini-indekset) for opdeling af datasættet på fremhævet 'X' er 0,08.

I denne situation, hvis vi beregner informationsgevinsten for alle elementer og vælger den med den mest bemærkelsesværdige informationsgevinst, vil den komponent blive valgt som den bedste komponent at opdele på ved rodknudepunktet i beslutningstræet.

Fordele:

Gini-indekset er et bredt involveret mål til evaluering af arten af ​​spaltninger i beslutningstræer, og det har et par overhånd over forskellige mål, for eksempel entropi eller fejlklassificeringsrate. Her er en del af de vigtigste fordele ved at bruge Gini-indekset:

dynamisk array java

Beregningseffektiv: Gini-indekset er et mindre komplekst og beregningsmæssigt hurtigere mål i modsætning til forskellige mål, for eksempel entropi, som involverer beregning af logaritmer.

Intuitiv fortolkning: Gini-indekset er ligetil og fortolker. Den måler sandsynligheden for, at et tilfældigt valgt eksempel fra et sæt bliver forkert klassificeret i tilfælde af, at det tilfældigt blev markeret i henhold til klasseoverførslen i sættet.

God til binær klassificering: Gini-indekset er særligt kraftfuldt til binære klassifikationsproblemer, hvor den objektive variabel kun har to klasser. I sådanne tilfælde er Gini-indekset kendt for at være mere stabilt end forskellige mål.

Robust til klasseubalance: Gini-indekset er mindre følsomt for klasseubalance i modsætning til forskellige mål, for eksempel præcision eller fejlklassificeringsrate. Dette er med den begrundelse, at Gini-indekset afhænger af det generelle omfang af eksempler i hver klasse i modsætning til de direkte tal.

Mindre tilbøjelig til overfitting: Gini-indekset vil generelt lave mere beskedne beslutningstræer i modsætning til forskellige mål, hvilket gør det mindre tilbøjeligt til overfitting. Dette er med den begrundelse, at Gini-indekset generelt vil favorisere funktioner, der gør mere beskedne pakker af dataene, hvilket mindsker mulighederne for overfitting.

Ulemper:

Mens Gini-indekset nyder godt af nogle få fordele som opdelingsmål for beslutningstræer, har det ligeledes nogle få ulemper. Her er en del af de vigtigste ulemper ved at bruge Gini-indekset:

Bias mod funktioner med mange kategorier: Gini-indekset vil generelt læne sig mod funktioner med mange kategorier eller værdier, da de kan lave flere opdelinger og pakker af dataene. Dette kan medføre overfitting og et mere kompliceret beslutningstræ.

Ikke godt for kontinuerlige variable: Gini-indekset er ikke egnet til kontinuerte variabler, da det kræver diskretisering af variablen i kategorier eller bins, hvilket kan medføre tab af information og formindsket nøjagtighed.

Ignorerer funktionsinteraktioner: Gini-indekset tænker blot på den individuelle forudseende kraft af hver funktion og ignorerer interaktioner mellem funktioner. Dette kan medføre dårlige opdelinger og mindre nøjagtige prognoser.

Ikke ideel til nogle datasæt: til tider er Gini-indekset muligvis ikke det ideelle mål til at evaluere arten af ​​spaltninger i et beslutningstræ. For eksempel, i tilfælde af at den objektive variabel er usædvanligt skrå eller ubalanceret, kan forskellige foranstaltninger, for eksempel informationsgevinst eller gevinstproportion, være mere egnede.

Tilbøjelig til bias ved tilstedeværelse af manglende værdier: Gini-indekset kan være skævt i nærvær af manglende værdier, da det generelt vil læne sig mod funktioner med færre manglende værdier, uanset om de ikke er de mest informative.

Real-World Applications of Gini Index

Gini-indekset er blevet brugt i forskellige applikationer inden for maskinlæring, for eksempel afpresningsplacering, kreditscoring og klientopdeling. For eksempel, i afpresningsopdagelse, kan Gini-indekset bruges til at skelne designs i udveksling af data og genkende bizar måde at opføre sig på. Ved kreditscoring kan Gini-indekset bruges til at forudse sandsynligheden for misligholdelse i lyset af variabler som indkomst, forholdet mellem udestående gæld til hjembetaling og registrering af tilbagebetaling af lån. I kundeopdeling kan Gini-indekset bruges til at samle kunder i lyset af deres måde at opføre sig på og tilbøjeligheder.

Fremtidsforskning

På trods af dets grænseløse brug i beslutningstræalgoritmer, er der stadig grad for forskning i Gini-indekset. Et forskningsområde er udviklingen af ​​nye urenhedsforanstaltninger, der kan adressere Gini-indeksets begrænsninger, såsom dets tilbøjelighed til faktorer med mange niveauer. Et yderligere forskningsområde er strømlining af beslutningstræalgoritmer ved at bruge Gini-indekset, for eksempel brugen af ​​outfitteknikker til at arbejde med præcisionen af ​​beslutningstræer.

Konklusion

Gini-indekset er et væsentligt urenhedsmål, der anvendes i beslutningstræalgoritmer til klassificeringsopgaver. Den måler sandsynligheden for, at en tilfældigt udvalgt test bliver fejlklassificeret af en beslutningstræalgoritme, og dens værdi går fra 0 (perfekt ren) til 1 (perfekt uren). Gini-indekset er ligetil og gennemført, beregningsmæssigt produktivt og kraftfuldt til undtagelser. Det er blevet brugt i forskellige applikationer inden for maskinlæring, for eksempel opdagelse af vildledende oplysninger, kreditvurdering og klientopdeling. Selvom Gini-indekset har nogle få begrænsninger, er der stadig forskning i dets forbedring og forbedring af nye urenhedsforanstaltninger.