LLE (Lokalt lineær indlejring) er en uovervåget tilgang designet til at transformere data fra dets oprindelige højdimensionelle rum til en lavere dimensionel repræsentation, alt imens man stræber efter at bevare de væsentlige geometriske karakteristika af den underliggende ikke-lineære trækstruktur. LLE opererer i flere nøgletrin:
- For det første konstruerer den en graf for nærmeste naboer for at fange disse lokale relationer. Derefter optimerer den vægtværdier for hvert datapunkt med det formål at minimere rekonstruktionsfejlen, når et punkt udtrykkes som en lineær kombination af dets naboer. Denne vægtmatrix afspejler styrken af forbindelser mellem punkter.
- Dernæst beregner LLE en lavere dimensionel repræsentation af dataene ved at finde egenvektorer af en matrix afledt af vægtmatricen. Disse egenvektorer repræsenterer de mest relevante retninger i det reducerede rum. Brugere kan angive den ønskede dimensionalitet for outputrummet, og LLE vælger de øverste egenvektorer i overensstemmelse hermed.
Som illustration kan du overveje en Swiss roll datasæt , som i sagens natur er ikke-lineær i sit højdimensionelle rum. LLE, i dette tilfælde, arbejder på at projicere denne komplekse struktur på et lavere dimensionelt plan og bevarer dens karakteristiske geometriske egenskaber gennem hele transformationsprocessen.
Indholdsfortegnelse
- Matematisk implementering af LLE-algoritme
- Lokalt lineær indlejringsalgoritme
- Parametre i LLE-algoritmen
- Implementering af Locally Linear Embedding
- Fordele ved LLE
- Ulemper ved LLE
Matematisk implementering af LLE-algoritme
Nøgleideen med LLE er, at lokalt, i nærheden af hvert datapunkt, ligger dataene omtrent på et lineært underrum. LLE forsøger at udfolde eller rulle dataene ud, mens disse lokale lineære relationer bevares.
Her er en matematisk oversigt over LLE-algoritmen:
c++ par
Minimer: 
Underlagt : 
Hvor:
- xjegrepræsenterer det i-te datapunkt.
- Iijer de vægte, der minimerer rekonstruktionsfejlen for datapunkt xjegved hjælp af sine naboer.
Det sigter mod at finde en lavere dimensionel repræsentation af data og samtidig bevare lokale relationer. Det matematiske udtryk for LLE involverer at minimere rekonstruktionsfejlen for hvert datapunkt ved at udtrykke det som en vægtet sum af dets k nærmeste naboer 'bidrag. Denne optimering er underlagt begrænsninger, der sikrer, at vægtene summer til 1 for hvert datapunkt. Locally Linear Embedding (LLE) er en dimensionsreduktionsteknik, der bruges i maskinlæring og dataanalyse. Den fokuserer på at bevare lokale relationer mellem datapunkter, når højdimensionelle data kortlægges til et rum med lavere dimensioner. Her vil vi forklare LLE-algoritmen og dens parametre.
Lokalt lineær indlejringsalgoritme
LLE-algoritmen kan opdeles i flere trin:
- Valg af kvarter: For hvert datapunkt i det højdimensionelle rum identificerer LLE sine k-nærmeste naboer. Dette trin er afgørende, fordi LLE antager, at hvert datapunkt godt kan tilnærmes ved en lineær kombination af dets naboer.
- Vægtmatrixkonstruktion: LLE beregner et sæt vægte for hvert datapunkt for at udtrykke det som en lineær kombination af dets naboer. Disse vægte er bestemt på en sådan måde, at rekonstruktionsfejlen minimeres. Lineær regression bruges ofte til at finde disse vægte.
- Global strukturbevarelse: Efter at have konstrueret vægtmatricen, sigter LLE mod at finde en lavere dimensionel repræsentation af de data, der bedst bevarer de lokale lineære sammenhænge. Det gør det ved at søge et sæt koordinater i det lavere dimensionelle rum for hvert datapunkt, der minimerer en omkostningsfunktion. Det her omkostningsfunktion evaluerer, hvor godt hvert datapunkt kan repræsenteres af dets naboer.
- Outputintegrering: Når optimeringsprocessen er afsluttet, giver LLE den endelige lavere dimensionelle repræsentation af dataene. Denne repræsentation fanger den væsentlige struktur af dataene, mens den reducerer dens dimensionalitet.
Parametre i LLE-algoritmen
LLE har et par parametre, der påvirker dens adfærd:
- k (antal naboer): Denne parameter bestemmer, hvor mange nærmeste naboer, der tages i betragtning, når vægtmatricen konstrueres. En større k fanger flere globale relationer, men kan introducere støj. En mindre k fokuserer på lokale relationer, men kan være følsom over for outliers. At vælge en passende værdi for k er afgørende for algoritmens succes.
- Dimensionalitet af outputplads: Du kan specificere dimensionaliteten af det lavere dimensionelle rum, som dataene skal kortlægges til. Dette er ofte valgt ud fra problemets krav og afvejningen mellem beregningsmæssig kompleksitet og informationsbevaring.
- Afstandsmåling: LLE er afhængig af en afstandsmetrik til at definere nærheden mellem datapunkter. Fælles valg omfatter euklidisk distance, Manhattan distance eller specialdefinerede distancefunktioner. Valget af afstandsmetrik kan påvirke resultaterne.
- Regulering (valgfrit): I nogle tilfælde føjes regulariseringsvilkår til omkostningsfunktionen for at forhindre overfitting. Regularisering kan være nyttig, når der er tale om støjende data, eller når antallet af naboer er højt.
- Optimeringsalgoritme (valgfrit): LLE bruger ofte optimeringsteknikker som f.eks Enkeltværdinedbrydning (SVD) eller egenvektormetoder til at finde den lavere dimensionelle repræsentation. Disse optimeringsmetoder kan have deres egne parametre, som kan justeres.
LLE (Locally Linear Embedding) repræsenterer et betydeligt fremskridt inden for strukturel analyse, der overgår traditionelle tæthedsmodelleringsteknikker som lokale PCA eller blandinger af faktoranalysatorer. Begrænsningen af tæthedsmodeller ligger i deres manglende evne til konsekvent at etablere et sæt globale koordinater, der er i stand til at indlejre observationer på tværs af hele den strukturelle manifold. Følgelig viser de sig utilstrækkelige til opgaver som at generere lavdimensionelle projektioner af det originale datasæt. Disse modeller udmærker sig kun ved at identificere lineære træk, som afbildet på billedet nedenfor. De kommer dog til kort i at fange indviklede buede mønstre, en egenskab, der er iboende til LLE.
design mønstre java
Forbedret beregningseffektivitet med LLE. LLE tilbyder overlegen beregningseffektivitet på grund af dens sparsomme matrixhåndtering, der overgår andre algoritmer.
Implementering af Locally Linear Embedding
Import af biblioteker
Python3
#importing Libraries> import> numpy as np> import> matplotlib.pyplot as plt> from> sklearn.datasets>import> make_swiss_roll> from> sklearn.manifold>import> LocallyLinearEmbedding> |
>
>
Koden starter med at importere nødvendige biblioteker, inklusive numpy, matplotlib.pyplot , make_swiss_roll fra sklearn.datasets og LocallyLinearEmbedding fra sklearn.manifold .
Generering af et syntetisk datasæt (Swiss Roll)
Python3
# Code for Generating a synthetic dataset (Swiss Roll)> n_samples>=> 1000> # Define the number of neighbors for LLE> n_neighbors>=> 10> X, _>=> make_swiss_roll(n_samples>=>n_samples)> |
>
>
Den genererer et syntetisk datasæt, der ligner en Swiss Roll ved hjælp af make_swiss_roll-funktionen fra scikit-learn.
n_samples angiver antallet af datapunkter, der skal genereres.
n_neighbors definerer antallet af naboer, der bruges i LLE-algoritmen.
Anvendelse af lokalt lineær indlejring (LLE)
Python3
# Including Locally Linear Embedding> lle>=> LocallyLinearEmbedding(n_neighbors>=>n_neighbors, n_components>=>2>)> X_reduced>=> lle.fit_transform(X)> |
>
>
En instans af LLE-algoritmen oprettes med LocallyLinearEmbedding. Parameteren n_neighbors bestemmer antallet af naboer, der skal tages i betragtning under indlejringsprocessen.
LLE-algoritmen tilpasses derefter til de originale data X ved hjælp af fit_transform metode. Dette trin reducerer datasættet til to dimensioner (n_components=2).
java konverter char til int
Visualisering af originale og reducerede data
Python3
# Code for Visualizing the original Versus reduced data> plt.figure(figsize>=>(>12>,>6>))> plt.subplot(>121>)> plt.scatter(X[:,>0>], X[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Original Data'>)> plt.xlabel(>'Feature 1'>)> plt.ylabel(>'Feature 2'>)> plt.subplot(>122>)> plt.scatter(X_reduced[:,>0>], X_reduced[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Reduced Data (LLE)'>)> plt.xlabel(>'Component 1'>)> plt.ylabel(>'Component 2'>)> plt.tight_layout()> plt.show()> |
>
>
Produktion:
Lokalt lineær indlejring
sortere arrayliste
I det andet subplot visualiseres de reducerede data opnået fra LLE (X_reduced) på lignende måde som de originale data. Farven på datapunkterne bestemmes stadig af det tredje træk ved de originale data (X[:, 2]). plt.tight_layout() funktion bruges til at sikre korrekt afstand mellem subplots.
Fordele ved LLE
Dimensionalitetsreduktionsmetoden kendt som lokalt lineær indlejring (LLE) har mange fordele til databehandling og visualisering. Følgende er LLEs vigtigste fordele:
- Bevarelse af lokale strukturer : LLE er fremragende til at vedligeholde lokale relationer eller strukturer i data. Det fanger med succes den iboende geometri af ikke-lineære manifolds ved at opretholde parvise afstande mellem nærliggende datapunkter.
- Håndtering af ikke-linearitet : LLE har evnen til at fange ikke-lineære mønstre og strukturer i dataene, i modsætning til lineære teknikker som f.eks. Hovedkomponentanalyse (PCA). Når du arbejder med komplicerede, buede eller snoede datasæt, er det særligt nyttigt.
- Dimensionalitetsreduktion : LLE sænker dimensionaliteten af dataene, mens de bevarer deres grundlæggende egenskaber. Især når du arbejder med højdimensionelle datasæt, gør denne reduktion datapræsentation, udforskning og analyse enklere.
Ulemper ved LLE
- Dimensionalitetens forbandelse : LLE kan opleve dimensionalitetens forbandelse når det bruges med ekstremt højdimensionelle data, ligesom mange andre dimensionsreduktionstilgange. Antallet af naboer, der kræves for at fange lokale interaktioner, stiger i takt med dimensionaliteten, hvilket potentielt øger beregningsomkostningerne ved tilgangen.
- Hukommelses- og beregningskrav : For store datasæt kan det være hukommelsesintensivt at oprette en vægtet tilstødende matrix som en del af LLE. Egenværdinedbrydningsstadiet kan også være beregningsmæssigt belastende for store datasæt.
- Outliers og Støjende data : LLE er modtagelig for anomalier og nervøse datapunkter. Kvaliteten af indlejringen kan blive påvirket, og de lokale lineære sammenhænge kan blive forvrænget af outliers.