logo

Forståelse af hypotesetestning

Hypotesetestning involverer at formulere antagelser om populationsparametre baseret på stikprøvestatistikker og nøje at evaluere disse antagelser mod empirisk evidens. Denne artikel belyser betydningen af ​​hypotesetestning og de kritiske trin involveret i processen.

Hvad er hypotesetestning?

Hypotesetestning er en statistisk metode, der bruges til at træffe en statistisk beslutning ved hjælp af eksperimentelle data. Hypotesetestning er grundlæggende en antagelse, som vi gør om en populationsparameter. Den evaluerer to gensidigt udelukkende udsagn om en population for at bestemme, hvilken udsagn der bedst understøttes af stikprøvedataene.



Eksempel: Du siger, at en gennemsnitlig højde i klassen er 30 eller en dreng er højere end en pige. Alt dette er en antagelse, som vi antager, og vi har brug for en statistisk måde at bevise disse på. Vi har brug for en matematisk konklusion, hvad end vi antager er sandt.

Definition af hypoteser

  • Nulhypotese (H 0 ): I statistik er nulhypotesen en generel erklæring eller standardposition om, at der ikke er nogen sammenhæng mellem to målte tilfælde eller ingen sammenhæng mellem grupper. Det er med andre ord en grundantagelse eller lavet ud fra problemviden.
    Eksempel : En virksomheds gennemsnitlige produktion er 50 enheder/per da H0: mu= 50.
  • Alternativ hypotese (H 1 ): Den alternative hypotese er den hypotese, der bruges i hypotesetestning, der er i modstrid med nulhypotesen.
    Eksempel: En virksomheds produktion er ikke lig med 50 enheder/dag, dvs. H1: mu 
halvtreds.

Nøglevilkår for hypotesetestning

  • Betydningsniveau : Det refererer til graden af ​​betydning, hvori vi accepterer eller afviser nulhypotesen. 100 % nøjagtighed er ikke mulig for at acceptere en hypotese, så vi vælger derfor et signifikansniveau, der normalt er 5 %. Dette er normalt angivet med alfaog generelt er det 0,05 eller 5 %, hvilket betyder, at dit output bør være 95 % sikkert for at give et lignende resultat i hver prøve.
  • P-værdi: Det P værdi , eller beregnet sandsynlighed, er sandsynligheden for at finde de observerede/ekstreme resultater, når nulhypotesen(H0) for et studie-givet problem er sandt. Hvis din P-værdi er mindre end det valgte signifikansniveau, afviser du nulhypotesen, dvs. accepterer, at din prøve hævder at understøtte den alternative hypotese.
  • Teststatistik: Teststatistikken er en numerisk værdi beregnet ud fra stikprøvedata under en hypotesetest, der bruges til at bestemme, om nulhypotesen skal forkastes. Det sammenlignes med en kritisk værdi eller p-værdi for at træffe beslutninger om den statistiske signifikans af de observerede resultater.
  • Kritisk værdi : Den kritiske værdi i statistik er en tærskel eller et afskæringspunkt, der bruges til at bestemme, om nulhypotesen skal forkastes i en hypotesetest.
  • Grader af frihed: Frihedsgrader er forbundet med den variabilitet eller frihed, man har til at estimere en parameter. Frihedsgraderne er relateret til prøvestørrelsen og bestemmer formen.

Hvorfor bruger vi hypotesetestning?

Hypotesetestning er en vigtig procedure i statistik. Hypotesetestning evaluerer to gensidigt udelukkende befolkningsudsagn for at bestemme, hvilken udsagn der er mest understøttet af stikprøvedata. Når vi siger, at resultaterne er statistisk signifikante, takket være hypotesetestning.

755 chmod

En-hale og to-halede test

En hale-test fokuserer på én retning, enten større end eller mindre end en specificeret værdi. Vi bruger en ensidet test, når der er en klar retningsbestemt forventning baseret på forudgående viden eller teori. Det kritiske område er kun placeret på den ene side af fordelingskurven. Hvis prøven falder ind i dette kritiske område, forkastes nulhypotesen til fordel for den alternative hypotese.



En-halet test

Der er to typer ensidet test:

  • Venstre-halet (venstresidet) test: Den alternative hypotese hævder, at den sande parameterværdi er mindre end nulhypotesen. Eksempel: H0: mu geq 50og H1:
  • og H1: mu>50

To-halet test

En to-halet test betragter begge retninger, større end og mindre end en specificeret værdi. Vi bruger en to-halet test, når der ikke er nogen specifik retningsbestemt forventning, og ønsker at opdage en signifikant forskel.

Eksempel: H0: i =50 og H1: mu 
eq 50



Hvad er type 1 og type 2 fejl i hypotesetestning?

Ved hypotesetestning, Type I og Type II fejl er to mulige fejl, som forskere kan begå, når de drager konklusioner om en population baseret på en stikprøve af data. Disse fejl er forbundet med de beslutninger, der er truffet vedrørende nulhypotesen og den alternative hypotese.

  • Type I fejl: Når vi forkaster nulhypotesen, selvom den hypotese var sand. Type I fejl er angivet med alpha( alfa).
  • Type II fejl: Når vi accepterer nulhypotesen, men den er falsk. Type II fejl er angivet med beta( eta).


Nulhypotesen er sand

Nulhypotesen er falsk

Nulhypotese er sand (accepter)

Korrekt beslutning

Type II-fejl (falsk negativ)

Alternativ hypotese er sand (afvis)

Type I-fejl (falsk positiv)

Korrekt beslutning

Hvordan fungerer hypotesetestning?

Trin 1: Definer nul og alternativ hypotese

Angiv nulhypotesen ( H_0), der repræsenterer ingen effekt, og den alternative hypotese ( H_1), hvilket tyder på en effekt eller forskel.

Vi identificerer først det problem, som vi ønsker at antage om, idet vi husker på, at vores antagelse bør være indbyrdes modstridende, idet vi antager Normalfordelte data.

Trin 2 – Vælg signifikansniveau

Vælg et signifikansniveau ( alfa), typisk 0,05, for at bestemme tærsklen for at forkaste nulhypotesen. Det giver validitet til vores hypotesetest og sikrer, at vi har tilstrækkelige data til at sikkerhedskopiere vores påstande. Normalt bestemmer vi vores signifikansniveau inden testen. Det p-værdi er det kriterium, der bruges til at beregne vores signifikansværdi.

Trin 3 Indsamle og analysere data.

Indsamle relevante data gennem observation eller eksperimentering. Analyser dataene ved hjælp af passende statistiske metoder for at opnå en teststatistik.

Trin 4-Beregn teststatistik

Dataene til testene evalueres i dette trin, vi leder efter forskellige score baseret på dataens karakteristika. Valget af teststatistikken afhænger af typen af ​​hypotesetest, der udføres.

Der er forskellige hypotesetests, hver passende til forskellige mål for at beregne vores test. Dette kunne være en Z-test , Chi-kvadrat , T-test , og så videre.

  1. Z-test : Hvis populationsmiddelværdier og standardafvigelser er kendt. Z-statistik er almindeligt anvendt.
  2. t-test : Hvis populationens standardafvigelser er ukendte. og stikprøvestørrelsen er lille end t-teststatistik er mere passende.
  3. Chi-kvadrat test : Chi-square test bruges til kategoriske data eller til at teste uafhængighed i beredskabstabeller
  4. F-test : F-test bruges ofte i variansanalyse (ANOVA) til at sammenligne varianser eller teste ligheden af ​​middel på tværs af flere grupper.

Vi har et mindre datasæt, så T-test er mere passende til at teste vores hypotese.

T-statistik er et mål for forskellen mellem gennemsnittet af to grupper i forhold til variabiliteten inden for hver gruppe. Det beregnes som forskellen mellem stikprøvegennemsnittet divideret med standardfejlen for forskellen. Det er også kendt som t-værdien eller t-score.

string builder java

Trin 5 – Sammenligning af teststatistik:

I denne fase beslutter vi, hvor vi skal acceptere nulhypotesen eller forkaste nulhypotesen. Der er to måder at beslutte, hvor vi skal acceptere eller afvise nulhypotesen.

Metode A: Brug af kritiske værdier

Ved at sammenligne teststatistikken og den opstillede kritiske værdi, vi har,

  • Hvis Teststatistik>Kritisk værdi: Afvis nulhypotesen.
  • Hvis teststatistik≤Kritisk værdi: Kan ikke forkaste nulhypotesen.

Bemærk: Kritiske værdier er forudbestemte tærskelværdier, der bruges til at træffe en beslutning i hypotesetestning. At bestemme kritiske værdier til hypotesetestning henviser vi typisk til en statistisk fordelingstabel, såsom normalfordelingen eller t-fordelingstabeller baseret på.

Metode B: Brug af P-værdier

Vi kan også komme til en konklusion ved at bruge p-værdien,

  • Hvis p-værdien er mindre end eller lig med signifikansniveauet, dvs. pleqalfa), afviser du nulhypotesen. Dette indikerer, at de observerede resultater sandsynligvis ikke er opstået tilfældigt alene, hvilket giver bevis for den alternative hypotese.
  • Hvis p-værdien er større end signifikansniveauet, dvs. pgeq alpha), undlader du at afvise nulhypotesen. Dette tyder på, at de observerede resultater stemmer overens med, hvad der ville forventes under nulhypotesen.

Bemærk : P-værdien er sandsynligheden for at opnå en teststatistik lige så ekstrem som eller mere ekstrem end den observerede i stikprøven, forudsat at nulhypotesen er sand. At bestemme p-værdi til hypotesetestning henviser vi typisk til en statistisk fordelingstabel, såsom normalfordelingen eller t-fordelingstabeller baseret på.

Trin 7- Fortolk resultaterne

Til sidst kan vi afslutte vores eksperiment med metode A eller B.

Beregning af teststatistik

For at validere vores hypotese om en populationsparameter bruger vi statistiske funktioner . Vi bruger z-score, p-værdi og signifikansniveau (alfa) til at bevise vores hypotese for normalfordelte data .

1. Z-statistik:

Når populationsmiddelværdier og standardafvigelser er kendt.

z = frac{ar{x} - mu}{frac{sigma}{sqrt{n}}}

hvor,

  • ar{x}er prøvegennemsnittet,
  • μ repræsenterer befolkningsgennemsnittet,
  • σ er standardafvigelsen
  • og n er størrelsen af ​​prøven.

2. T-Statistik

T-test bruges når n<30,

t-statistisk beregning er givet ved:

t=frac{x̄-Μ}{s/sqrt{n}}

hvor,

  • t = t-score,
  • x̄ = prøvegennemsnit
  • μ = befolkningsmiddelværdi,
  • s = standardafvigelse for prøven,
  • n = prøvestørrelse

3. Chi-Square Test

Chi-Square-test for uafhængighedskategoriske data (ikke-normalfordelt) ved hjælp af:

chi^2 = sum frac{(O_{ij} - E_{ij})^2}{E_{ij}}

hvor,

  • O_{ij}er den observerede frekvens i cellen {ij}
  • i,j er henholdsvis række- og kolonneindekset.
  • E_{ij}er den forventede frekvens i cellen {ij}, beregnet som:
    frac{{	ext{{Række i alt}} 	ime 	ext{{Kolonne i alt}}}}{{	ext{{I alt observationer}}}}

Eksempel på hypotesetest fra det virkelige liv

Lad os undersøge hypotesetestning ved hjælp af to virkelige situationer,

.tif-fil

Case A: D Påvirker et nyt lægemiddel blodtrykket?

Forestil dig, at en medicinalvirksomhed har udviklet et nyt lægemiddel, som de mener effektivt kan sænke blodtrykket hos patienter med hypertension. Før de bringer stoffet på markedet, skal de udføre en undersøgelse for at vurdere dets indvirkning på blodtrykket.

Data:

  • Før behandling: 120, 122, 118, 130, 125, 128, 115, 121, 123, 119
  • Efter behandling: 115, 120, 112, 128, 122, 125, 110, 117, 119, 114

Trin 1 : Definer hypotesen

  • Nulhypotesen : (H0)Det nye lægemiddel har ingen effekt på blodtrykket.
  • Alternativ hypotese : (H1)Det nye lægemiddel har en effekt på blodtrykket.

Trin 2: Definer betydningsniveauet

Lad os overveje signifikansniveauet på 0,05, hvilket indikerer afvisning af nulhypotesen.

Hvis beviserne tyder på mindre end 5 % chance for at observere resultaterne på grund af tilfældig variation.

Trin 3 : Beregn teststatistikken

Ved brug af parret T-test analysere dataene for at opnå en teststatistik og en p-værdi.

Teststatistikken (f.eks. T-statistik) beregnes ud fra forskellene mellem blodtryksmålinger før og efter behandling.

t = m/(s/√n)

Hvor:

  • m = middelværdi af forskellen dvs x efter, x Før
  • s = standardafvigelse af forskellen (d) dvs d jeg = x efter, jeg x Før,
  • n = prøvestørrelse,

derefter, m= -3,9, s= 1,8 og n=10

vi beregner , T-statistikken = -9 baseret på formlen for parret t-test

Trin 4: Find p-værdien

Den beregnede t-statistik er -9 og frihedsgrader df = 9, kan du finde p-værdien ved hjælp af statistisk software eller en t-fordelingstabel.

således, p-værdi = 8,538051223166285e-06

Trin 5: Resultat

  • Hvis p-værdien er mindre end eller lig med 0,05, afviser forskerne nulhypotesen.
  • Hvis p-værdien er større end 0,05, forkaster de ikke nulhypotesen.

Konklusion: Da p-værdien (8,538051223166285e-06) er mindre end signifikansniveauet (0,05), afviser forskerne nulhypotesen. Der er statistisk signifikant evidens for, at det gennemsnitlige blodtryk før og efter behandling med det nye lægemiddel er forskelligt.

Python-implementering af hypotesetestning

Lad os lave hypotesetest med python, hvor vi tester, om et nyt lægemiddel påvirker blodtrykket. Til dette eksempel vil vi bruge en parret T-test. Vi vil bruge scipy.stats> bibliotek til T-testen.

Vi vil implementere vores første virkelige problem via python,

Python3

import> numpy as np> from> scipy>import> stats> # Data> before_treatment>=> np.array([>120>,>122>,>118>,>130>,>125>,>128>,>115>,>121>,>123>,>119>])> after_treatment>=> np.array([>115>,>120>,>112>,>128>,>122>,>125>,>110>,>117>,>119>,>114>])> # Step 1: Null and Alternate Hypotheses> # Null Hypothesis: The new drug has no effect on blood pressure.> # Alternate Hypothesis: The new drug has an effect on blood pressure.> null_hypothesis>=> 'The new drug has no effect on blood pressure.'> alternate_hypothesis>=> 'The new drug has an effect on blood pressure.'> # Step 2: Significance Level> alpha>=> 0.05> # Step 3: Paired T-test> t_statistic, p_value>=> stats.ttest_rel(after_treatment, before_treatment)> # Step 4: Calculate T-statistic manually> m>=> np.mean(after_treatment>-> before_treatment)> s>=> np.std(after_treatment>-> before_treatment, ddof>=>1>)># using ddof=1 for sample standard deviation> n>=> len>(before_treatment)> t_statistic_manual>=> m>/> (s>/> np.sqrt(n))> # Step 5: Decision> if> p_value <>=> alpha:> >decision>=> 'Reject'> else>:> >decision>=> 'Fail to reject'> # Conclusion> if> decision>=>=> 'Reject'>:> >conclusion>=> 'There is statistically significant evidence that the average blood pressure before and after treatment with the new drug is different.'> else>:> >conclusion>=> 'There is insufficient evidence to claim a significant difference in average blood pressure before and after treatment with the new drug.'> # Display results> print>(>'T-statistic (from scipy):'>, t_statistic)> print>(>'P-value (from scipy):'>, p_value)> print>(>'T-statistic (calculated manually):'>, t_statistic_manual)> print>(f>'Decision: {decision} the null hypothesis at alpha={alpha}.'>)> print>(>'Conclusion:'>, conclusion)>
>
>

Produktion:

T-statistic (from scipy): -9.0 P-value (from scipy): 8.538051223166285e-06 T-statistic (calculated manually): -9.0 Decision: Reject the null hypothesis at alpha=0.05. Conclusion: There is statistically significant evidence that the average blood pressure before and after treatment with the new drug is different.>

I ovenstående eksempel, givet T-statistikken på ca. -9 og en ekstremt lille p-værdi, indikerer resultaterne et stærkt argument for at forkaste nulhypotesen ved et signifikansniveau på 0,05.

  • Resultaterne tyder på, at det nye lægemiddel, behandling eller intervention har en signifikant effekt på at sænke blodtrykket.
  • Den negative T-statistik indikerer, at middelblodtrykket efter behandling er signifikant lavere end det antagede populationsmiddel før behandling.

Sag B : Kolesterolniveau i en befolkning

Data: Der udtages en prøve på 25 individer, og deres kolesteroltal måles.

Kolesterolniveauer (mg/dL): 205, 198, 210, 190, 215, 205, 200, 192, 198, 205, 198, 202, 208, 200, 205, 198, 2, 205, 198, 2, 205, 205 205, 210, 192, 205.

Befolkningsgennemsnit = 200

Populationsstandardafvigelse (σ): 5 mg/dL (givet til dette problem)

Trin 1: Definer hypotesen

  • Nulhypotese (H 0 ): Det gennemsnitlige kolesterolniveau i en befolkning er 200 mg/dL.
  • Alternativ hypotese (H 1 ): Det gennemsnitlige kolesterolniveau i en befolkning er forskelligt fra 200 mg/dL.

Trin 2: Definer betydningsniveauet

Da afvigelsesretningen ikke er angivet, antager vi en to-halet test, og ud fra en normalfordelingstabel kan de kritiske værdier for et signifikansniveau på 0,05 (to-halet) beregnes vha. z-tabel og er cirka -1,96 og 1,96.

Trin 3 : Beregn teststatistikken

Teststatistikken beregnes ved at bruge z-formlen MED = (203,8 - 200) / (5 div sqrt{25})og vi får i overensstemmelse hermed, MED =2,0399999999999992.

Trin 4: Resultat

Da den absolutte værdi af teststatistikken (2,04) er større end den kritiske værdi (1,96), forkaster vi nulhypotesen. Og konkluder, at der er statistisk signifikant bevis for, at det gennemsnitlige kolesterolniveau i befolkningen er forskelligt fra 200 mg/dL

Python-implementering af hypotesetestning

Python3

import> scipy.stats as stats> import> math> import> numpy as np> # Given data> sample_data>=> np.array(> >[>205>,>198>,>210>,>190>,>215>,>205>,>200>,>192>,>198>,>205>,>198>,>202>,>208>,>200>,>205>,>198>,>205>,>210>,>192>,>205>,>198>,>205>,>210>,>192>,>205>])> population_std_dev>=> 5> population_mean>=> 200> sample_size>=> len>(sample_data)> # Step 1: Define the Hypotheses> # Null Hypothesis (H0): The average cholesterol level in a population is 200 mg/dL.> # Alternate Hypothesis (H1): The average cholesterol level in a population is different from 200 mg/dL.> # Step 2: Define the Significance Level> alpha>=> 0.05> # Two-tailed test> # Critical values for a significance level of 0.05 (two-tailed)> critical_value_left>=> stats.norm.ppf(alpha>/>2>)> critical_value_right>=> ->critical_value_left> # Step 3: Compute the test statistic> sample_mean>=> sample_data.mean()> z_score>=> (sample_mean>-> population_mean)>/> > >(population_std_dev>/> math.sqrt(sample_size))> # Step 4: Result> # Check if the absolute value of the test statistic is greater than the critical values> if> abs>(z_score)>>max>(>abs>(critical_value_left),>abs>(critical_value_right)):> >print>(>'Reject the null hypothesis.'>)> >print>(>'There is statistically significant evidence that the average cholesterol level in the population is different from 200 mg/dL.'>)> else>:> >print>(>'Fail to reject the null hypothesis.'>)> >print>(>'There is not enough evidence to conclude that the average cholesterol level in the population is different from 200 mg/dL.'>)>
>
>

Produktion:

Reject the null hypothesis. There is statistically significant evidence that the average cholesterol level in the population is different from 200 mg/dL.>

Begrænsninger af hypotesetestning

  • Selvom det er en nyttig teknik, giver hypotesetestning ikke en omfattende forståelse af det emne, der studeres. Uden fuldt ud at afspejle fænomenernes indviklede eller hele kontekst koncentrerer den sig om visse hypoteser og statistisk signifikans.
  • Nøjagtigheden af ​​hypotesetestningsresultater er betinget af kvaliteten af ​​tilgængelige data og hensigtsmæssigheden af ​​de anvendte statistiske metoder. Upræcise data eller dårligt formulerede hypoteser kan føre til forkerte konklusioner.
  • At stole udelukkende på hypotesetestning kan få analytikere til at overse væsentlige mønstre eller sammenhænge i dataene, som ikke er fanget af de specifikke hypoteser, der testes. Denne begrænsning understreger vigtigheden af ​​at komplimentere hypotesetestning med andre analytiske tilgange.

Konklusion

Hypotesetestning står som en hjørnesten i statistisk analyse, der gør det muligt for dataforskere at navigere i usikkerheder og drage troværdige slutninger fra prøvedata. Ved systematisk at definere nul- og alternative hypoteser, vælge signifikansniveauer og udnytte statistiske tests kan forskere vurdere gyldigheden af ​​deres antagelser. Artiklen belyser også den kritiske sondring mellem type I- og type II-fejl, hvilket giver en omfattende forståelse af den nuancerede beslutningsproces, der er iboende i hypotesetestning. Det virkelige eksempel på at teste et nyt lægemiddels effekt på blodtrykket ved hjælp af en parret T-test viser den praktiske anvendelse af disse principper, hvilket understreger vigtigheden af ​​statistisk stringens i datadrevet beslutningstagning.

Ofte stillede spørgsmål (FAQ)

1. Hvad er de 3 typer hypotesetest?

Der er tre typer hypotesetests: højrehale, venstrehalede og tohalede. Højrehalede test vurderer, om en parameter er større, venstrehalede, hvis mindre. To-halede tests kontrollerer for ikke-retningsbestemte forskelle, større eller mindre.

2.Hvad er de 4 komponenter i hypotesetestning?

Nulhypotesen ( H_o): Der er ingen effekt eller forskel.

Alternativ hypotese ( H_1): Der eksisterer en effekt eller forskel.

ikke null i js

Betydningsniveau ( alfa): Risiko for at afvise nulhypotesen, når den er sand (Type I-fejl).

Teststatistik: Numerisk værdi, der repræsenterer observeret bevis mod nulhypotesen.

3. Hvad er hypotesetestning i ML?

Statistisk metode til at evaluere ydeevnen og validiteten af ​​maskinlæringsmodeller. Tester specifikke hypoteser om modeladfærd, som om funktioner påvirker forudsigelser, eller om en model generaliserer godt til usete data.

4.Hvad er forskellen mellem Pytest og hypotese i Python?

Pytest formål med generel testramme for Python-kode, mens Hypothesis er en egenskabsbaseret testramme for Python, der fokuserer på at generere testcases baseret på specificerede egenskaber for koden.