Forudsætning – Data Mining, lighedsmål refererer til afstand med dimensioner, der repræsenterer funktioner i dataobjektet i et datasæt. Hvis denne afstand er mindre, vil der være en høj grad af lighed, men når afstanden er stor, vil der være en lav grad af lighed. Nogle af de populære lighedsmål er -
- Euklidisk afstand.
- Manhattan afstand.
- Jaccard lighed.
- Minkowski afstand.
- Cosinus lighed.
Cosinus lighed er en metrik, der er nyttig til at bestemme, hvor ens dataobjekterne er, uanset deres størrelse. Vi kan måle ligheden mellem to sætninger i Python ved hjælp af Cosine Similarity. I cosinus-lighed behandles dataobjekter i et datasæt som en vektor. Formlen til at finde cosinus-ligheden mellem to vektorer er -
(x, y) = x . y / ||x|| ||y||>
hvor,
- x . y = produkt (prik) af vektorerne 'x' og 'y'.||x|| og ||og|| = længden (størrelsen) af de to vektorer 'x' og 'y'.||x||

Eksempel: Overvej et eksempel for at finde ligheden mellem to vektorer - 'x' og 'og' , ved hjælp af Cosinus Similarity. 'x' vektoren har værdier, x = { 3, 2, 0, 5 } 'y'-vektoren har værdier, y = { 1, 0, 0, 0 } Formlen til beregning af cosinus-ligheden er: (x, y) = x. y / ||x||
||og||
x . y = 3*1 + 2*0 + 0*0 + 5*0 = 3 ||x|| = √ (3)^2 + (2)^2 + (0)^2 + (5)^2 = 6.16 ||y|| = √ (1)^2 + (0)^2 + (0)^2 + (0)^2 = 1 ∴ (x, y) = 3 / (6.16 * 1) = 0.49>
Uligheden mellem de to vektorer 'x' og 'y' er givet ved -
∴ (x, y) = 1 - (x, y) = 1 - 0.49 = 0.51>
- Cosinus-ligheden mellem to vektorer måles i 'θ'.
- Hvis θ = 0°, overlapper 'x'- og 'y'-vektorerne, hvilket beviser, at de ligner hinanden.
- Hvis θ = 90°, er 'x'- og 'y'-vektorerne uens.

Cosinus lighed mellem to vektorer
Fordele:
- Cosinus-ligheden er fordelagtig, fordi selvom de to ens dataobjekter er langt fra hinanden med den euklidiske afstand på grund af størrelsen, kan de stadig have en mindre vinkel mellem dem. Mindre vinkel, større lighed.
- Når den plottes på et flerdimensionelt rum, fanger cosinus-ligheden orienteringen (vinklen) af dataobjekterne og ikke størrelsen.