logo

Hierarkisk clustering i data mining

Hierarkisk clustering refererer til en uovervåget læringsprocedure, der bestemmer successive klynger baseret på tidligere definerede klynger. Det fungerer ved at gruppere data i et træ af klynger. Hierarkisk klyngestatistik ved at behandle hvert datapunkt som en individuel klynge. Slutpunktet refererer til et andet sæt af klynger, hvor hver klynge er forskellig fra den anden klynge, og objekterne i hver klynge er de samme som hinanden.

Der er to typer hierarkisk klyngedannelse

  • Agglomerativ hierarkisk klyngedannelse
  • Splittende klyngedannelse

Agglomerativ hierarkisk klyngedannelse

Agglomerativ clustering er en af ​​de mest almindelige typer hierarkisk clustering, der bruges til at gruppere lignende objekter i klynger. Agglomerative clustering er også kendt som AGNES (Agglomerative Nesting). Ved agglomerativ clustering fungerer hvert datapunkt som en individuel klynge, og ved hvert trin grupperes dataobjekter i en bottom-up-metode. Til at begynde med er hvert dataobjekt i sin klynge. Ved hver iteration kombineres klyngerne med forskellige klynger, indtil en klynge er dannet.

Agglomerativ hierarkisk klyngealgoritme

  1. Bestem ligheden mellem individer og alle andre klynger. (Find nærhedsmatrix).
  2. Betragt hvert datapunkt som en individuel klynge.
  3. Kombiner lignende klynger.
  4. Genberegn nærhedsmatricen for hver klynge.
  5. Gentag trin 3 og trin 4, indtil du får en enkelt klynge.

Lad os forstå dette koncept ved hjælp af grafisk repræsentation ved hjælp af et dendrogram.

Ved hjælp af en given demonstration kan vi forstå, hvordan den faktiske algoritme fungerer. Her er der ikke foretaget en beregning under forudsætning af, at al nærheden blandt klyngerne er forudsat.

Lad os antage, at vi har seks forskellige datapunkter P, Q, R, S, T, V.

Hierarkisk clustering i data mining

Trin 1:

Betragt hvert alfabet (P, Q, R, S, T, V) som en individuel klynge og find afstanden mellem den enkelte klynge fra alle andre klynger.

Trin 2:

Flet nu de sammenlignelige klynger i en enkelt klynge. Lad os sige, at klynge Q og klynge R ligner hinanden, så vi kan flette dem sammen i andet trin. Til sidst får vi klyngerne [(P), (QR), (ST), (V)]

Trin 3:

Her genberegner vi nærheden i henhold til algoritmen og kombinerer de to nærmeste klynger [(ST), (V)] sammen for at danne nye klynger som [(P), (QR), (STV)]

Trin 4:

Gentag den samme proces. Klyngerne STV og PQ er sammenlignelige og kombineres til en ny klynge. Nu har vi [(P), (QQRSTV)].

Trin 5:

Til sidst flettes de resterende to klynger sammen for at danne en enkelt klynge [(PQRSTV)]

Opsplittende hierarkisk klyngedannelse

Opsplittende hierarkisk clustering er præcis det modsatte af agglomerativ hierarkisk clustering. I Divisive Hierarchical clustering betragtes alle datapunkter som en individuel klynge, og i hver iteration adskilles de datapunkter, der ikke er ens, fra klyngen. De adskilte datapunkter behandles som en individuel klynge. Til sidst står vi tilbage med N klynger.

Hierarkisk clustering i data mining

Fordele ved hierarkisk klyngedannelse

  • Det er nemt at implementere og giver det bedste output i nogle tilfælde.
  • Det er nemt og resulterer i et hierarki, en struktur, der indeholder mere information.
  • Det er ikke nødvendigt, at vi på forhånd angiver antallet af klynger.

Ulemper ved hierarkisk klyngedannelse

  • Det bryder de store klynger.
  • Det er svært at håndtere forskellige størrelser klynger og konvekse former.
  • Den er følsom over for støj og afvigelser.
  • Algoritmen kan aldrig ændres eller slettes, når den først blev gjort tidligere.