logo

Lineær regression i maskinlæring

Maskinelæring er en gren af ​​kunstig intelligens, der fokuserer på udvikling af algoritmer og statistiske modeller, der kan lære af og forudsige data. Lineær regression er også en type maskinlæringsalgoritme mere specifikt en overvåget maskinlæringsalgoritme der lærer af de mærkede datasæt og kortlægger datapunkterne til de mest optimerede lineære funktioner. som kan bruges til forudsigelse af nye datasæt.

Først og fremmest bør vi vide, hvad overvågede maskinlæringsalgoritmer er. Det er en type maskinlæring, hvor algoritmen lærer af mærkede data. Mærket data betyder det datasæt, hvis respektive målværdi allerede er kendt. Superviseret læring har to typer:

  • Klassifikation : Den forudsiger datasættets klasse baseret på den uafhængige inputvariabel. Klasse er de kategoriske eller diskrete værdier. ligesom billedet af et dyr er en kat eller hund?
  • Regression : Den forudsiger de kontinuerlige outputvariable baseret på den uafhængige inputvariabel. som forudsigelse af huspriser baseret på forskellige parametre som husets alder, afstand fra hovedvejen, beliggenhed, område osv.

Her vil vi diskutere en af ​​de simpleste typer af regression, dvs. Lineær regression.



Indholdsfortegnelse

Hvad er lineær regression?

Lineær regression er en type overvåget maskinlæring algoritme, der beregner det lineære forhold mellem den afhængige variabel og et eller flere uafhængige træk ved at tilpasse en lineær ligning til observerede data.

Når der kun er én uafhængig funktion, er den kendt som Simpel lineær regression , og når der er mere end én funktion, er den kendt som Multipel lineær regression .

På samme måde, når der kun er én afhængig variabel, betragtes den Univariat lineær regression , mens når der er mere end én afhængig variabel, er det kendt som Multivariat regression .

Hvorfor lineær regression er vigtig?

Fortolkningen af ​​lineær regression er en bemærkelsesværdig styrke. Modellens ligning giver klare koefficienter, der belyser virkningen af ​​hver uafhængig variabel på den afhængige variabel, hvilket letter en dybere forståelse af den underliggende dynamik. Dens enkelhed er en dyd, da lineær regression er gennemsigtig, nem at implementere og fungerer som et grundlæggende koncept for mere komplekse algoritmer.

Lineær regression er ikke blot et forudsigelsesværktøj; det danner grundlag for forskellige avancerede modeller. Teknikker som regularisering og støttevektormaskiner henter inspiration fra lineær regression, hvilket udvider dens anvendelighed. Derudover er lineær regression en hjørnesten i antagelsestestning, der gør det muligt for forskere at validere centrale antagelser om dataene.

Typer af lineær regression

Der er to hovedtyper af lineær regression:

Simpel lineær regression

Dette er den enkleste form for lineær regression, og den involverer kun en uafhængig variabel og en afhængig variabel. Ligningen for simpel lineær regression er:
y=eta_{0}+eta_{1}X
hvor:

  • Y er den afhængige variabel
  • X er den uafhængige variabel
  • β0 er skæringspunktet
  • β1 er hældningen

Multipel lineær regression

Dette involverer mere end én uafhængig variabel og én afhængig variabel. Ligningen for multipel lineær regression er:
y=eta_{0}+eta_{1}X+eta_{2}X+………eta_{n}X
hvor:

  • Y er den afhængige variabel
  • X1, X2, …, Xp er de uafhængige variable
  • β0 er skæringspunktet
  • β1, β2, …, βn er skråningerne

Målet med algoritmen er at finde bedste Fit Line ligning, der kan forudsige værdierne baseret på de uafhængige variable.

I regression er sæt af poster til stede med X- og Y-værdier, og disse værdier bruges til at lære en funktion, så hvis du vil forudsige Y fra et ukendt X, kan denne indlærte funktion bruges. I regression skal vi finde værdien af ​​Y, så der kræves en funktion, der forudsiger kontinuerlig Y i tilfælde af regression givet X som uafhængige træk.

Hvad er den bedste Fit Line?

Vores primære mål ved brug af lineær regression er at lokalisere den bedst passende linje, hvilket indebærer, at fejlen mellem de forudsagte og faktiske værdier skal holdes på et minimum. Der vil være den mindste fejl i den bedst tilpassede linje.

Den bedste Fit Line-ligning giver en lige linje, der repræsenterer forholdet mellem de afhængige og uafhængige variable. Hældningen på linjen angiver, hvor meget den afhængige variabel ændres for en enhedsændring i den eller de uafhængige variabler.

Lineær regression i maskinlæring

Lineær regression


Her kaldes Y en afhængig eller målvariabel og X kaldes en uafhængig variabel også kendt som prædiktoren for Y. Der er mange typer funktioner eller moduler, der kan bruges til regression. En lineær funktion er den enkleste type funktion. Her kan X være en enkelt funktion eller flere funktioner, der repræsenterer problemet.

Lineær regression udfører opgaven med at forudsige en afhængig variabelværdi (y) baseret på en given uafhængig variabel (x)). Derfor er navnet lineær regression. I figuren ovenfor er X (input) erhvervserfaringen og Y (output) er lønnen for en person. Regressionslinjen er den linje, der passer bedst til vores model.

Vi bruger omkostningsfunktionen til at beregne de bedste værdier for at få den bedste tilpasningslinje, da forskellige værdier for vægte eller koefficienten af ​​linjer resulterer i forskellige regressionslinjer.

Hypotesefunktion i lineær regression

Som vi tidligere har antaget, at vores uafhængige funktion er erfaringen, dvs. X, og den respektive løn Y er den afhængige variabel. Lad os antage, at der er et lineært forhold mellem X og Y, så kan lønnen forudsiges ved hjælp af:

tcp ip model

hat{Y} = heta_1 + heta_2X

ELLER

hat{y}_i = heta_1 + heta_2x_i

Her,

  • y_i epsilon Y ;; (i= 1,2, cdots , n) er etiketter til data (overvåget læring)
  • x_i epsilon X ;; (i= 1,2, cdots , n) er de inputuafhængige træningsdata (univariate – én inputvariabel(parameter))
  • hat{y_i} epsilon hat{Y} ;; (i= 1,2, cdots , n) er de forudsagte værdier.

Modellen får den bedste regressionspasningslinje ved at finde den bedste θ1og θ2værdier.

  • jeg 1 : opsnappe
  • jeg 2 : koefficient på x

Når vi finder den bedste θ1og θ2værdier, får vi den bedst passende linje. Så når vi endelig bruger vores model til forudsigelse, vil den forudsige værdien af ​​y for inputværdien af ​​x.

Sådan opdaterer du θ 1 og θ 2 værdier for at få den bedst passende linje?

For at opnå den bedst egnede regressionslinje sigter modellen mod at forudsige målværdienhat{Y} sådan, at fejlforskellen mellem den forudsagte værdihat{Y} og den sande værdi Y er minimum. Så det er meget vigtigt at opdatere θ1og θ2værdier, for at nå den bedste værdi, der minimerer fejlen mellem den forudsagte y-værdi (pred) og den sande y-værdi (y).

minimizefrac{1}{n}sum_{i=1}^{n}(hat{y_i}-y_i)^2

Omkostningsfunktion til lineær regression

Det omkostningsfunktion eller den tabsfunktion er intet andet end fejlen eller forskellen mellem den forudsagte værdihat{Y} og den sande værdi Y.

I lineær regression er Mean Squared Error (MSE) Der anvendes omkostningsfunktion, som beregner gennemsnittet af de kvadrerede fejl mellem de forudsagte værdierhat{y}_i og de faktiske værdier{y}_i . Formålet er at bestemme de optimale værdier for skæringen heta_1 og koefficienten for input-funktionen heta_2 giver den bedst passende linje til de givne datapunkter. Den lineære ligning, der udtrykker dette forhold erhat{y}_i = heta_1 + heta_2x_i .

MSE-funktionen kan beregnes som:

ext{Cost function}(J) = frac{1}{n}sum_{n}^{i}(hat{y_i}-y_i)^2

Ved at bruge MSE-funktionen anvendes den iterative proces med gradientnedstigning til at opdatere værdierne af heta_1 & heta_2 . Dette sikrer, at MSE-værdien konvergerer til de globale minima, hvilket angiver den mest nøjagtige tilpasning af den lineære regressionslinje til datasættet.

Denne proces involverer løbende justering af parametrene ( heta_1) og ( heta_2) baseret på gradienterne beregnet fra MSE. Det endelige resultat er en lineær regressionslinje, der minimerer de overordnede kvadrerede forskelle mellem de forudsagte og faktiske værdier, hvilket giver en optimal repræsentation af det underliggende forhold i dataene.

Gradient Descent for lineær regression

En lineær regressionsmodel kan trænes ved hjælp af optimeringsalgoritmen gradient nedstigning ved iterativt at modificere modellens parametre for at reducere gennemsnitlig kvadratisk fejl (MSE) af modellen på et træningsdatasæt. For at opdatere θ1og θ2værdier for at reducere Cost-funktionen (minimering af RMSE-værdi) og opnå den bedst passende linje, som modellen bruger Gradient Descent. Ideen er at starte med tilfældig θ1og θ2værdier og derefter iterativt opdatere værdierne for at nå minimumsomkostninger.

En gradient er intet andet end en afledet, der definerer virkningerne på output af funktionen med en lille smule variation i input.

Lad os differentiere omkostningsfunktionen (J) mhp heta_1

egin {aligned} {J}’_{ heta_1} &=frac{partial J( heta_1, heta_2)}{partial heta_1} &= frac{partial}{partial heta_1} left[frac{1}{n} left(sum_{i=1}^{n}(hat{y}_i-y_i)^2 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_1}(hat{y}_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_1}( heta_1 + heta_2x_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(1+0-0 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}(hat{y}_i-y_i) left(2 ight ) ight] &= frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i) end {aligned}

Lad os differentiere omkostningsfunktionen (J) mhp heta_2

egin {aligned} {J}’_{ heta_2} &=frac{partial J( heta_1, heta_2)}{partial heta_2} &= frac{partial}{partial heta_2} left[frac{1}{n} left(sum_{i=1}^{n}(hat{y}_i-y_i)^2 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_2}(hat{y}_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_2}( heta_1 + heta_2x_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(0+x_i-0 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}(hat{y}_i-y_i) left(2x_i ight ) ight] &= frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i)cdot x_i end {aligned}

At finde koefficienterne for en lineær ligning, der passer bedst til træningsdataene, er målet for lineær regression. Ved at bevæge sig i retning af Mean Squared Error negative gradient i forhold til koefficienterne, kan koefficienterne ændres. Og den respektive skæringspunkt og koefficient for X vil være ifalpha er indlæringshastigheden.

Gradient nedstigning

egin{aligned} heta_1 &= heta_1 – alpha left( {J}’_{ heta_1} ight) &= heta_1 -alpha left( frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i) ight) end{aligned} egin{aligned} heta_2 &= heta_2 – alpha left({J}’_{ heta_2} ight) &= heta_2 – alpha left(frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i)cdot x_i ight) end{aligned}

Antagelser om simpel lineær regression

Lineær regression er et kraftfuldt værktøj til at forstå og forudsige adfærden af ​​en variabel, men den skal opfylde nogle få betingelser for at være nøjagtige og pålidelige løsninger.

  1. Linearitet : De uafhængige og afhængige variable har en lineær sammenhæng med hinanden. Dette indebærer, at ændringer i den afhængige variabel følger ændringerne i den eller de uafhængige variabler på en lineær måde. Det betyder, at der skal være en ret linje, der kan trækkes gennem datapunkterne. Hvis sammenhængen ikke er lineær, vil lineær regression ikke være en nøjagtig model.
  2. Uafhængighed : Observationerne i datasættet er uafhængige af hinanden. Det betyder, at værdien af ​​den afhængige variabel for en observation ikke afhænger af værdien af ​​den afhængige variabel for en anden observation. Hvis observationerne ikke er uafhængige, vil lineær regression ikke være en nøjagtig model.
  3. Homoskedasticitet : På tværs af alle niveauer af den eller de uafhængige variabler er variansen af ​​fejlene konstant. Dette indikerer, at mængden af ​​den eller de uafhængige variabler ikke har nogen indflydelse på variansen af ​​fejlene. Hvis variansen af ​​residualerne ikke er konstant, vil lineær regression ikke være en nøjagtig model.

    Homoscedasticitet i lineær regression

  4. Normalitet : Resterne skal være normalfordelte. Det betyder, at resterne skal følge en klokkeformet kurve. Hvis residualerne ikke er normalfordelte, vil lineær regression ikke være en nøjagtig model.

Antagelser om multipel lineær regression

For multipel lineær regression gælder alle fire antagelser fra simpel lineær regression. Ud over dette er der nogle flere nedenfor:

  1. Ingen multikolinearitet : Der er ingen høj korrelation mellem de uafhængige variable. Dette indikerer, at der er ringe eller ingen sammenhæng mellem de uafhængige variable. Multikolinearitet opstår, når to eller flere uafhængige variable er stærkt korrelerede med hinanden, hvilket kan gøre det vanskeligt at bestemme den individuelle effekt af hver variabel på den afhængige variabel. Hvis der er multikollinearitet, så vil multipel lineær regression ikke være en nøjagtig model.
  2. Additivitet: Modellen antager, at effekten af ​​ændringer i en prædiktorvariabel på responsvariablen er konsistent uanset værdierne af de andre variable. Denne antagelse indebærer, at der ikke er nogen interaktion mellem variabler i deres effekter på den afhængige variabel.
  3. Funktionsvalg: Ved multipel lineær regression er det vigtigt at omhyggeligt udvælge de uafhængige variabler, der vil blive inkluderet i modellen. Inkludering af irrelevante eller redundante variabler kan føre til overfitting og komplicere fortolkningen af ​​modellen.
  4. Overpasning: Overtilpasning opstår, når modellen passer for tæt på træningsdataene og fanger støj eller tilfældige udsving, der ikke repræsenterer det sande underliggende forhold mellem variabler. Dette kan føre til dårlig generaliseringsydelse på nye, usete data.

Multikolinearitet

Multikolinearitet er et statistisk fænomen, der opstår, når to eller flere uafhængige variable i en multipel regressionsmodel er stærkt korrelerede, hvilket gør det vanskeligt at vurdere de individuelle effekter af hver variabel på den afhængige variabel.

Detektering af multikolinearitet omfatter to teknikker:

  • Korrelationsmatrix: Undersøgelse af korrelationsmatrixen blandt de uafhængige variable er en almindelig måde at detektere multikollinearitet på. Høje korrelationer (tæt på 1 eller -1) indikerer potentiel multikollinearitet.
  • VIF (Variance Inflation Factor): VIF er et mål, der kvantificerer, hvor meget variansen af ​​en estimeret regressionskoefficient stiger, hvis dine prædiktorer er korrelerede. En høj VIF (typisk over 10) tyder på multikollinearitet.

Evalueringsmålinger for lineær regression

Et udvalg af evalueringsforanstaltninger kan bruges til at bestemme styrken af ​​enhver lineær regressionsmodel. Disse vurderingsmetrikker giver ofte en indikation af, hvor godt modellen producerer de observerede output.

De mest almindelige målinger er:

Mean Square Error (MSE)

Mean Squared Error (MSE) er en evalueringsmetrik, der beregner gennemsnittet af de kvadrerede forskelle mellem de faktiske og forudsagte værdier for alle datapunkterne. Forskellen er kvadreret for at sikre, at negative og positive forskelle ikke ophæver hinanden.

MSE = frac{1}{n}sum_{i=1}^{n}left ( y_i – widehat{y_{i}} ight )^2

Her,

  • n er antallet af datapunkter.
  • ogjeger den faktiske eller observerede værdi for ithdatapunkt.
  • widehat{y_{i}} er den forudsagte værdi for ithdatapunkt.

MSE er en måde at kvantificere nøjagtigheden af ​​en models forudsigelser. MSE er følsom over for outliers, da store fejl bidrager væsentligt til den samlede score.

Gennemsnitlig absolut fejl (MAE)

Gennemsnitlig absolut fejl er en evalueringsmetrik, der bruges til at beregne nøjagtigheden af ​​en regressionsmodel. MAE måler den gennemsnitlige absolutte forskel mellem de forudsagte værdier og faktiske værdier.

Matematisk er MAE udtrykt som:

MAE =frac{1}{n} sum_{i=1}^{n}|Y_i – widehat{Y_i}|

Her,

  • n er antallet af observationer
  • OGjegrepræsenterer de faktiske værdier.
  • widehat{Y_i} repræsenterer de forudsagte værdier

Lavere MAE-værdi indikerer bedre modelydelse. Det er ikke følsomt over for outliers, da vi betragter absolutte forskelle.

Root Mean Squared Error (RMSE)

Kvadratroden af ​​residualernes varians er Root Mean Squared Fejl . Den beskriver, hvor godt de observerede datapunkter matcher de forventede værdier, eller modellens absolutte tilpasning til dataene.


I matematisk notation kan det udtrykkes som:
RMSE=sqrt{frac{RSS}{n}}=sqrtfrac{{{sum_{i=2}^{n}(y^{actual}_{i}}- y_{i}^{predicted})^2}}{n}
I stedet for at dividere hele antallet af datapunkter i modellen med antallet af frihedsgrader, skal man dividere summen af ​​de kvadrerede residualer for at opnå et upartisk estimat. Derefter omtales dette tal som Residual Standard Error (RSE).

I matematisk notation kan det udtrykkes som:
RMSE=sqrt{frac{RSS}{n}}=sqrtfrac{{{sum_{i=2}^{n}(y^{actual}_{i}}- y_{i}^{predicted})^2}}{(n-2)}

RSME er ikke en så god metrik som R-kvadrat. Root Mean Squared Error kan svinge, når variablernes enheder varierer, da dens værdi er afhængig af variablernes enheder (det er ikke et normaliseret mål).

Bestemmelseskoefficient (R-kvadrat)

R-kvadrat er en statistik, der angiver, hvor stor variation den udviklede model kan forklare eller fange. Det er altid i området fra 0 til 1. Generelt gælder det, at jo bedre modellen matcher dataene, jo større er R-kvadrat-tallet.
I matematisk notation kan det udtrykkes som:
R^{2}=1-(^{frac{RSS}{TSS}})

  • Restsum af kvadrater (RSS): Den summen af ​​kvadrater af residualet for hvert datapunkt i plottet eller dataene er kendt som restsummen af ​​kvadrater eller RSS. Det er en måling af forskellen mellem det output, der blev observeret, og det forventede.
    RSS=sum_{i=2}^{n}(y_{i}-b_{0}-b_{1}x_{i})^{2}
  • Total sum af kvadrater (TSS): Summen af ​​datapunkternes fejl fra svarvariablens middel er kendt som den samlede sum af kvadrater eller TSS.
    TSS= sum_{}^{}(y-overline{y_{i}})^2

R kvadreret metrisk er et mål for variansandelen i den afhængige variabel, der forklares de uafhængige variable i modellen.

Justeret R-Squared Error

Justeret R2måler andelen af ​​varians i den afhængige variabel, der forklares af uafhængige variable i en regressionsmodel. Justeret R-kvadrat redegør for antallet af prædiktorer i modellen og straffer modellen for at inkludere irrelevante prædiktorer, der ikke bidrager væsentligt til at forklare variansen i de afhængige variable.

Matematisk justeret R2er udtrykt som:

Adjusted , R^2 = 1 – (frac{(1-R^2).(n-1)}{n-k-1})

Her,

  • n er antallet af observationer
  • k er antallet af prædiktorer i modellen
  • R2er koeeficient for beslutsomhed

Justeret R-firkant hjælper med at forhindre overpasning. Det straffer modellen med yderligere prædiktorer, der ikke bidrager væsentligt til at forklare variansen i den afhængige variabel.

Python-implementering af lineær regression

Importer de nødvendige biblioteker:

Python3 import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib.axes as ax from matplotlib.animation import FuncAnimation>

Indlæs datasættet og adskil input- og målvariabler

Her er linket til datasættet: Datasæt link

Python3 url = 'https://media.techcodeview.com data = pd.read_csv(url) data # Drop the missing values data = data.dropna() # training dataset and labels train_input = np.array(data.x[0:500]).reshape(500, 1) train_output = np.array(data.y[0:500]).reshape(500, 1) # valid dataset and labels test_input = np.array(data.x[500:700]).reshape(199, 1) test_output = np.array(data.y[500:700]).reshape(199, 1)>

Byg den lineære regressionsmodel og plot regressionslinjen

Trin:

  • I fremadgående udbredelse anvendes lineær regressionsfunktion Y=mx+c ved indledningsvis at tildele tilfældig værdi af parameteren (m & c).
  • Vi har skrevet funktionen til at finde omkostningsfunktionen, dvs. middelværdien
Python3 class LinearRegression: def __init__(self): self.parameters = {} def forward_propagation(self, train_input): m = self.parameters['m'] c = self.parameters['c'] predictions = np.multiply(m, train_input) + c return predictions def cost_function(self, predictions, train_output): cost = np.mean((train_output - predictions) ** 2) return cost def backward_propagation(self, train_input, train_output, predictions): derivatives = {} df = (predictions-train_output) # dm= 2/n * mean of (predictions-actual) * input dm = 2 * np.mean(np.multiply(train_input, df)) # dc = 2/n * mean of (predictions-actual) dc = 2 * np.mean(df) derivatives['dm'] = dm derivatives['dc'] = dc return derivatives def update_parameters(self, derivatives, learning_rate): self.parameters['m'] = self.parameters['m'] - learning_rate * derivatives['dm'] self.parameters['c'] = self.parameters['c'] - learning_rate * derivatives['dc'] def train(self, train_input, train_output, learning_rate, iters): # Initialize random parameters self.parameters['m'] = np.random.uniform(0, 1) * -1 self.parameters['c'] = np.random.uniform(0, 1) * -1 # Initialize loss self.loss = [] # Initialize figure and axis for animation fig, ax = plt.subplots() x_vals = np.linspace(min(train_input), max(train_input), 100) line, = ax.plot(x_vals, self.parameters['m'] * x_vals + self.parameters['c'], color='red', label='Regression Line') ax.scatter(train_input, train_output, marker='o', color='green', label='Training Data') # Set y-axis limits to exclude negative values ax.set_ylim(0, max(train_output) + 1) def update(frame): # Forward propagation predictions = self.forward_propagation(train_input) # Cost function cost = self.cost_function(predictions, train_output) # Back propagation derivatives = self.backward_propagation( train_input, train_output, predictions) # Update parameters self.update_parameters(derivatives, learning_rate) # Update the regression line line.set_ydata(self.parameters['m'] * x_vals + self.parameters['c']) # Append loss and print self.loss.append(cost) print('Iteration = {}, Loss = {}'.format(frame + 1, cost)) return line, # Create animation ani = FuncAnimation(fig, update, frames=iters, interval=200, blit=True) # Save the animation as a video file (e.g., MP4) ani.save('linear_regression_A.webp'false'>Python3 #Example usage linear_reg = LinearRegression() parametre, tab = linear_reg.train(train_input, train_output, 0,0001, 20) Output : Iteration = 1, Tab = 9130.407560462196 Iteration = 1167.92 , Tab = 140,31580932842422 Iteration = 1, Tab = 23,795780526084116 Iteration = 2, Tab = 9,753848205147605 Iteration = 3, Tab = 8,061641745006835 Iteration = 4, Tab = 11,857, 7,857. 8331350515579015 Iteration = 6, Tab = 7,830172502503967 Iteration = 7, Tab = 7,829814681591015 Iteration = 8 , Tab = 7,829770758846183 Iteration = 9, Tab = 7,829764664327399 Iteration = 10, Tab = 7,829763128602258 Iteration = 11, Tab = 72,829, 7,829, 7,829 829761222379141 Iteration = 13, Tab = 7,829760310486438 Iteration = 14, Tab = 7,829759399646989 Iteration = 15, Tab = 7,829758489015161 Iteration = 16, Tab = 7,829757578489033 Iteration = 17, Tab = 7,829756668056319 Iteration = 18, Tab = 55,577, 8,777 29754847466484 Iteration = 20, Tab = 7,829753937309139 Lineær regressionslinjeDen lineære regressionslinje giver værdifuld indsigt i forholdet mellem de to variable. Det repræsenterer den bedst passende linje, der fanger den overordnede tendens til, hvordan en afhængig variabel (Y) ændres som reaktion på variationer i en uafhængig variabel (X). Positiv lineær regressionslinje: En positiv lineær regressionslinje angiver en direkte sammenhæng mellem den uafhængige variabel (X) og den afhængige variabel (Y). Det betyder, at når værdien af ​​X stiger, stiger værdien af ​​Y også. Hældningen af ​​en positiv lineær regressionslinje er positiv, hvilket betyder, at linjen hælder opad fra venstre mod højre. Negativ lineær regressionslinje: En negativ lineær regressionslinje angiver et omvendt forhold mellem den uafhængige variabel (X) og den afhængige variabel (Y). Det betyder, at når værdien af ​​X stiger, falder værdien af ​​Y. Hældningen af ​​en negativ lineær regressionslinje er negativ, hvilket betyder, at linjen hælder nedad fra venstre mod højre. Regulariseringsteknikker for lineære modeller Lasso-regression (L1-regularisering) Lasso-regression er en teknik, der bruges til at regularisere en lineær regressionsmodel, den tilføjer en straf sigt til den lineære regressionsobjektivfunktion for at forhindre overfitting. Den objektive funktion efter anvendelse af lassoregression er: det første led er det mindste kvadraters tab, der repræsenterer den kvadrerede forskel mellem forudsagte og faktiske værdier. det andet led er L1-regulariseringsleddet, det straffer summen af ​​absolutte værdier af regressionskoefficienten θj. Ridge-regression (L2-regularisering) Ridge-regression er en lineær regressionsteknik, der føjer et regulariseringsled til det lineære standardmål. Igen er målet at forhindre overtilpasning ved at straffe stor koefficient i lineær regressionsligning. Det er nyttigt, når datasættet har multikollinearitet, hvor prædiktorvariabler er meget korrelerede. Den objektive funktion efter anvendelse af højderygregression er: det første led er det mindste kvadraters tab, der repræsenterer den kvadrerede forskel mellem forudsagte og faktiske værdier. det andet led er L1-regulariseringsleddet, det straffer summen af ​​kvadratet af værdier af regressionskoefficienten θj. Elastic Net Regression Elastic Net Regression er en hybrid regulariseringsteknik, der kombinerer styrken af ​​både L1- og L2-regularisering i lineært regressionsmål. det første led er mindste kvadrattab. det andet led er L1-regularisering og tredje er ridge-regression.???? er den overordnede regulariseringsstyrke. α styrer blandingen mellem L1 og L2-regularisering. Anvendelser af lineær regressionLineær regression bruges på mange forskellige områder, herunder finans, økonomi og psykologi, til at forstå og forudsige adfærden af ​​en bestemt variabel. For eksempel inden for finans kan lineær regression bruges til at forstå forholdet mellem en virksomheds aktiekurs og dens indtjening eller til at forudsige den fremtidige værdi af en valuta baseret på dens tidligere præstationer. Fordele og ulemper ved lineær regression Fordele ved lineær regressionLineær regression er en relativt simpel algoritme, der gør den let at forstå og implementere. Koefficienterne for den lineære regressionsmodel kan fortolkes som ændringen i den afhængige variabel for en ændring på én enhed i den uafhængige variabel, hvilket giver indsigt i forholdet mellem variabler. Lineær regression er beregningsmæssigt effektiv og kan håndtere store datasæt effektivt. Det kan trænes hurtigt på store datasæt, hvilket gør det velegnet til realtidsapplikationer.Lineær regression er relativt robust over for outliers sammenlignet med andre maskinlæringsalgoritmer. Outliers kan have en mindre indvirkning på modellens overordnede ydeevne.Lineær regression fungerer ofte som en god basismodel til sammenligning med mere komplekse maskinlæringsalgoritmer.Lineær regression er en veletableret algoritme med en rig historie og er bredt tilgængelig i forskellige maskinlæringsalgoritmer. biblioteker og softwarepakker. Ulemper ved lineær regressionLineær regression antager en lineær sammenhæng mellem de afhængige og uafhængige variable. Hvis sammenhængen ikke er lineær, fungerer modellen muligvis ikke godt. Lineær regression er følsom over for multikollinearitet, som opstår, når der er en høj korrelation mellem uafhængige variable. Multikollinearitet kan oppuste variansen af ​​koefficienterne og føre til ustabile modelforudsigelser. Lineær regression forudsætter, at funktionerne allerede er i en passende form for modellen. Funktionsteknik kan være påkrævet for at transformere funktioner til et format, der effektivt kan bruges af modellen. Lineær regression er modtagelig for både overtilpasning og undertilpasning. Overfitting opstår, når modellen lærer træningsdataene for godt og undlader at generalisere til usete data. Undertilpasning opstår, når modellen er for simpel til at fange de underliggende sammenhænge i dataene. Lineær regression giver begrænset forklaringskraft til komplekse sammenhænge mellem variable. Mere avancerede maskinlæringsteknikker kan være nødvendige for dybere indsigt.KonklusionLineær regression er en grundlæggende maskinlæringsalgoritme, der har været meget brugt i mange år på grund af dens enkelhed, fortolkning og effektivitet. Det er et værdifuldt værktøj til at forstå sammenhænge mellem variable og lave forudsigelser i en række forskellige anvendelser. Det er dog vigtigt at være opmærksom på dens begrænsninger, såsom dens antagelse om linearitet og følsomhed over for multikolinearitet. Når disse begrænsninger nøje overvejes, kan lineær regression være et effektivt værktøj til dataanalyse og forudsigelse. Lineær regression – ofte stillede spørgsmål (ofte stillede spørgsmål) Hvad betyder lineær regression i simple ord? Lineær regression er en overvåget maskinlæringsalgoritme, der forudsiger en kontinuerlig målvariabel baseret på en eller flere uafhængige variable. Den antager en lineær sammenhæng mellem de afhængige og uafhængige variable og bruger en lineær ligning til at modellere denne sammenhæng. Hvorfor bruger vi lineær regression? Lineær regression bruges almindeligvis til: Forudsigelse af numeriske værdier baseret på inputfunktioner Forudsigelse af fremtidige tendenser baseret på historiske data Identifikation af sammenhænge mellem variabler Forståelse af forskellige faktorers indvirkning på et bestemt resultatHvordan man bruger lineær regression?Brug lineær regression ved at tilpasse en linje til at forudsige sammenhængen mellem variable , forstå koefficienter og lave forudsigelser baseret på inputværdier til informeret beslutningstagning. Hvorfor kaldes det lineær regression?Lineær regression er opkaldt efter sin brug af en lineær ligning til at modellere forholdet mellem variabler, der repræsenterer en lige linjetilpasning til datapunkterne. Hvad er eksempler på lineær regression? Forudsigelse af huspriser baseret på kvadratmeter, estimering af eksamensresultater fra studietimer og forudsigelse af salg ved hjælp af reklameudgifter er eksempler på lineær regression.>