logo

Hvad er CRISP i Data Mining?

CRISP-DM står for den tværindustrielle standardproces for data mining. CRISP-DM-metoden giver en struktureret tilgang til planlægning af et datamining-projekt. Det er en robust og gennemprøvet metode. Vi hævder ikke noget ejerskab over det. Vi har ikke opfundet det. Vi er en konverter af dets kraftfulde praktiske, fleksibilitet og anvendelighed, når vi bruger analyser til at løse forretningsproblemer. Det er den gyldne tråd, der løber gennem næsten alle kundemøder.

Denne model er en idealiseret sekvens af begivenheder. I praksis kan mange opgaver udføres i en anden rækkefølge, og det vil ofte være nødvendigt at gå tilbage til tidligere opgaver og gentage visse handlinger. Modellen forsøger ikke at fange alle mulige ruter gennem data mining-processen.

Hvordan hjælper CRISP?

CRISP DM giver en køreplan, den giver dig bedste praksis, og den giver strukturer for bedre og hurtigere resultater af brugen af ​​data mining, så det er sådan, det hjælper virksomheden med at følge med, mens du planlægger og udfører et data mining-projekt.

Faser af CRISP-DM

CRISP-DM giver et overblik over datamining-livscyklussen som procesmodel. Livscyklusmodellen omfatter seks faser, med pile, der angiver de vigtigste og hyppigste afhængigheder mellem faser. Rækkefølgen af ​​faserne er ikke streng. Og de fleste projekter bevæger sig frem og tilbage mellem faserne efter behov. CRISP-DM modellen er fleksibel og kan nemt tilpasses.

For eksempel, hvis din organisation har til formål at opdage hvidvaskning af penge, vil du sandsynligvis gennemsøge store mængder data uden et specifikt modelleringsmål. I stedet for modellering vil dit arbejde fokusere på dataudforskning og visualisering for at afdække mistænkelige mønstre i finansielle data. CRISP-DM giver dig mulighed for at skabe en dataminingmodel, der passer til dine behov.

Den indeholder beskrivelser af typiske faser af et projekt, de opgaver, der er involveret i hver fase, og en forklaring af forholdet mellem disse opgaver.

Hvad er CRISP i Data Mining

Fase 1: Forretningsforståelse

Den første fase af CRISP-DM-processen er at forstå, hvad du ønsker at opnå fra et forretningsperspektiv. Din organisation kan have konkurrerende mål og begrænsninger, som skal være korrekt afbalanceret. Denne procesfase har til formål at afdække vigtige faktorer, der har indflydelse på projektets resultat. Forsømmelse af dette trin kan betyde, at der bliver lagt en stor indsats i at producere de rigtige svar på de forkerte spørgsmål.

Hvad er de ønskede resultater af projektet?

    Sæt mål:Beskriv dit primære mål fra et forretningsperspektiv. Der kan også være andre relaterede spørgsmål, som du gerne vil nævne. For eksempel kan dit primære mål være at beholde nuværende kunder ved at forudsige, hvornår de er tilbøjelige til at flytte til en konkurrent.Lav projektplan:Beskriv planen for at nå datamining- og forretningsmålene. Planen bør specificere de trin, der skal udføres under resten af ​​projektet, herunder det første valg af værktøjer og teknikker.Forretningssucceskriterier:Her vil du opstille de kriterier, du vil bruge til at afgøre, om projektet har været succesfuldt fra et forretningsmæssigt synspunkt. Disse bør ideelt set være specifikke og målbare, for eksempel ved at reducere kundebeat til et vist niveau. Nogle gange kan det dog være nødvendigt at have mere subjektive kriterier, såsom at give nyttig indsigt i relationerne.

Vurder den aktuelle situation

tabel i reaktion

Dette involverer mere detaljeret fact-finding om de ressourcer, begrænsninger, antagelser og andre faktorer, du skal overveje, når du bestemmer dit dataanalysemål og projektplan.

    Opgørelse af ressourcer:Liste over de ressourcer, der er tilgængelige for projektet, herunder:
    • Personale (forretningseksperter, dataeksperter, teknisk support, datamining-eksperter)
    • Data (faste udtræk, adgang til live-, lager- eller driftsdata)
    • Computerressourcer (hardwareplatforme)
    • Software (data mining-værktøjer, anden relevant software)
    Krav, antagelser og begrænsninger:Liste over alle krav til projektet, herunder tidsplanen for afslutningen, den krævede forståelighed og kvalitet af resultater og eventuelle datasikkerhedsproblemer og juridiske spørgsmål. Sørg for, at du har tilladelse til at bruge dataene. Angiv de forudsætninger, projektet har gjort. Disse kan være antagelser om de data, der kan verificeres under data mining, men kan også omfatte ikke-verificerbare antagelser om forretningen relateret til projektet. Det er vigtigt at liste sidstnævnte, hvis de påvirker resultaternes validitet. Angiv begrænsningerne på projektet. Disse kan være begrænsninger på tilgængeligheden af ​​ressourcer, men kan også omfatte teknologiske begrænsninger såsom størrelsen af ​​det datasæt, som det er praktisk at bruge til modellering.Risici og uforudsete begivenheder:List de risici eller begivenheder, der kan forsinke projektet eller få det til at mislykkes. Angiv de tilsvarende beredskabsplaner, f.eks. hvad vil du gøre, hvis disse risici eller hændelser opstår?Terminologi:Udarbejd en ordliste med terminologi, der er relevant for projektet. Dette vil generelt have to komponenter:
    • En ordliste med relevant forretningsterminologi udgør en del af den forretningsforståelse, som projektet har til rådighed. Konstruktionen af ​​denne ordliste er en nyttig 'vidensfremkaldelse' og uddannelsesøvelse.
    • En ordliste over datamining-terminologi er illustreret med eksempler, der er relevante for forretningsproblemet.
    Omkostninger og fordele:Konstruer en cost-benefit-analyse for projektet, som sammenligner projektets omkostninger med de potentielle fordele for virksomheden, hvis det lykkes. Denne sammenligning skal være så specifik som muligt. For eksempel bør du bruge økonomiske foranstaltninger i en kommerciel situation.

Bestem data mining mål

Et forretningsmål angiver mål i forretningsterminologi. Et data mining-mål angiver projektmål i tekniske termer. For eksempel kan forretningsmålet være Øge katalogsalget til eksisterende kunder. Et data mining-mål kan være at forudsige, hvor mange widgets en kunde vil købe, givet deres køb over de seneste tre år, demografiske oplysninger (alder, løn, by osv.) og varens pris.

    Forretningssucceskriterier:Den beskriver de tilsigtede output af projektet, der gør det muligt at nå forretningsmålene.Data mining succeskriterier:Den definerer kriterierne for et vellykket projektresultat. For eksempel et vist niveau af forudsigelig nøjagtighed eller en købstilbøjelighedsprofil med en given grad af 'løft'. Ligesom med forretningssucceskriterier kan det være nødvendigt at beskrive disse i subjektive termer, i hvilket tilfælde den eller de personer, der foretager den subjektive bedømmelse, skal identificeres.

Udarbejde projektplan

Beskriv den påtænkte plan for at nå data mining-målene og forretningsmålene. Din plan bør specificere de trin, der skal udføres under resten af ​​projektet, herunder det første valg af værktøjer og teknikker.

1. Projektplan: Angiv de stadier, der skal udføres i projektet, med deres varighed, nødvendige ressourcer, input, output og afhængigheder. Hvor det er muligt, prøv at eksplicitere de store gentagelser i data mining-processen, for eksempel gentagelser af modellerings- og evalueringsfaserne.

Som en del af projektplanen er det vigtigt at analysere afhængighederne mellem tidsplaner og risici. Markér resultaterne af disse analyser eksplicit i projektplanen, ideelt set med handlinger og anbefalinger, hvis risiciene viser sig. Beslut hvilken evalueringsstrategi, der skal bruges i evalueringsfasen.

Din projektplan vil være et dynamisk dokument. I slutningen af ​​hver fase vil du gennemgå fremskridt og resultater og opdatere projektplanen i overensstemmelse hermed. Specifikke gennemgangspunkter for disse opdateringer bør være en del af projektplanen.

2. Indledende vurdering af værktøjer og teknikker: I slutningen af ​​den første fase skal du foretage en indledende vurdering af værktøjer og teknikker. For eksempel vælger du et dataminingværktøj, der understøtter forskellige metoder til forskellige stadier af processen. Det er vigtigt at vurdere værktøjer og teknikker tidligt i processen, da valget af værktøjer og teknikker kan påvirke hele projektet.

Fase 2: Dataforståelse

Den anden fase af CRISP-DM-processen kræver, at du erhverver de data, der er anført i projektressourcerne. Denne indledende indsamling inkluderer dataindlæsning, hvis dette er nødvendigt for at forstå data. Hvis du for eksempel bruger et specifikt værktøj til dataforståelse, giver det perfekt mening at indlæse dine data i dette værktøj. Hvis du anskaffer flere datakilder, skal du overveje, hvordan og hvornår du vil integrere disse.

    Indledende dataindsamlingsrapport:Angiv de indsamlede datakilder, deres placeringer, de metoder, der er brugt til at erhverve dem, og eventuelle problemer. Registrer problemer, du stødte på, og eventuelle opnåede løsninger. Dette vil hjælpe med fremtidig replikering af dette projekt og udførelsen af ​​lignende fremtidige projekter.

Beskriv data

Undersøg 'brutto' eller 'overflade' egenskaberne for de indhentede data og rapporter om resultaterne.

medietransmission
    Databeskrivelsesrapport:Beskriv de data, der er blevet indsamlet, herunder dets format, dets mængde, identiteten af ​​felterne og eventuelle andre overfladetræk, der er blevet opdaget. Vurder, om de indsamlede data opfylder dine krav.

Udforsk data

I løbet af denne fase vil du behandle datamining-spørgsmål ved hjælp af forespørgsler, datavisualisering og rapporteringsteknikker. Disse kan omfatte:

  • Fordeling af nøgleattributter
  • Relationer mellem par eller et lille antal attributter
  • Resultater af simple sammenlægninger
  • Egenskaber for væsentlige delpopulationer
  • Simple statistiske analyser

Disse analyser kan direkte adressere dine data mining-mål. De kan bidrage til eller forfine databeskrivelsen og kvalitetsrapporterne og indgå i transformationen og andre dataforberedelsestrin, der er nødvendige for yderligere analyse.

    Dataudforskningsrapport:Beskriv resultaterne af din dataudforskning, herunder de første resultater eller indledende hypotese og deres indvirkning på resten af ​​projektet. Hvis det er relevant, kan du inkludere grafer og plots her for at angive datakarakteristika, der tyder på yderligere undersøgelse af interessante dataundersæt.

Bekræft datakvaliteten

Undersøg kvaliteten af ​​dataene ved at behandle spørgsmål som:

  • Er dataene fuldstændige, eller dækker de alle de påkrævede sager?
  • Er det korrekt, eller indeholder det fejl, og hvis der er fejl, hvor almindelige er de så?
  • Mangler der værdier i dataene? Hvis ja, hvordan er de repræsenteret, hvor forekommer de, og hvor almindelige er de?

Datakvalitetsrapport

Liste resultaterne af datakvalitetsverifikationen. Hvis der er kvalitetsproblemer, foreslå mulige løsninger. Løsninger på datakvalitetsproblemer afhænger generelt i høj grad af data og forretningskendskab.

Fase 3: Dataforberedelse

I denne projektfase beslutter du dig for, hvilke data du vil bruge til analyse. De kriterier, du kan bruge til at træffe denne beslutning, omfatter relevansen af ​​dataene for dine data mining-mål, dataens kvalitet og tekniske begrænsninger såsom begrænsninger for datamængde eller datatyper.

    Begrundelsen for inklusion/eksklusion:Angiv de data, der skal inkluderes/udelukkes, og årsagerne til disse beslutninger.

Rens dine data

Denne opgave involverer at hæve datakvaliteten til det niveau, der kræves af de analyseteknikker, du har valgt. Dette kan involvere udvælgelse af rene delmængder af dataene, indsættelse af passende standardværdier eller mere ambitiøse teknikker såsom estimering af manglende data ved modellering.

    Datarensningsrapport:Beskriv, hvilke beslutninger og handlinger du tog for at løse problemer med datakvalitet. Overvej eventuelle datatransformationer foretaget til rengøringsformål og deres mulige indvirkning på analyseresultaterne.

Konstruer nødvendige data

Denne opgave omfatter konstruktive dataforberedelsesoperationer, såsom fremstilling af afledte attributter, helt nye poster eller transformerede værdier for eksisterende attributter.

java software mønstre
    Afledte attributter:Disse er nye attributter konstrueret ud fra en eller flere eksisterende attributter i samme post. For eksempel kan du bruge variablerne længde og bredde til at beregne en ny arealvariabel.Genererede poster:Her beskriver du oprettelsen af ​​eventuelle helt nye plader. For eksempel skal du muligvis oprette registreringer for kunder, der ikke har købt i løbet af det seneste år. Der var ingen grund til at have sådanne registreringer i rådataene. Alligevel kan det være fornuftigt at repræsentere, at bestemte kunder eksplicit har foretaget nulkøb til modelleringsformål.

Integrer data

Disse metoder kombinerer information fra flere databaser, tabeller eller poster for at skabe nye poster eller værdier.

    Sammenlagte data:Sammenfletning af tabeller refererer til at forbinde to eller flere tabeller med forskellig information om de samme objekter. For eksempel kan en detailkæde have én tabel med oplysninger om hver butiks generelle karakteristika (f.eks. gulvplads, type indkøbscenter), en anden tabel med opsummerede salgsdata (f.eks. fortjeneste, procentvis ændring i salget fra det foregående år) og en anden med oplysninger om det omkringliggende områdes demografi. Hver af disse tabeller indeholder én post for hver butik. Disse tabeller kan flettes ind i en ny tabel med én post for hver butik, ved at kombinere felter fra kildetabellerne.Sammenlægninger:Aggregeringer er operationer, hvor nye værdier beregnes ved at opsummere information fra flere poster eller tabeller. For eksempel at konvertere en tabel over kundekøb, hvor én post for hvert køb, til en ny tabel og én post for hver kunde, med felter som antal køb, gennemsnitlig købsbeløb, procent af ordrer debiteret kreditkort, procent af varer under forfremmelse mv.

Fase 4: Modellering

Vælg modelleringsteknik: Som det første trin skal du vælge den grundlæggende modelleringsteknik, du vil bruge. Selvom du måske allerede har valgt et værktøj under forretningsforståelsesfasen, vil du på dette stadium vælge den specifikke modelleringsteknik, f.eks. beslutningstræbygning med C5.0 eller neural netværksgenerering med tilbageudbredelse. Hvis der anvendes flere teknikker, skal du udføre denne opgave separat for hver teknik.

string sammenligne java
    Modelleringsteknik:Dokumenter den grundlæggende modelleringsteknik, der skal anvendes.Modelleringsantagelser:Mange modelleringsteknikker gør specifikke antagelser om dataene, for eksempel at alle attributter har ensartede fordelinger, ingen manglende værdier er tilladt, klasseattributten skal være symbolsk osv. Registrer eventuelle antagelser.

Generer testdesign

Før du bygger en model, skal du generere en procedure eller mekanisme til at teste modellens kvalitet og validitet. For eksempel i overvågede datamining-opgaver såsom klassificering er det almindeligt at bruge fejlrater som kvalitetsmål for datamining-modeller. Derfor opdeler man typisk datasættet i tog- og testsæt, bygger modellen på togsættet og vurderer dets kvalitet på det separate testsæt.

    Test design:Beskriv den påtænkte plan for træning, test og evaluering af modellerne. En primær komponent i planen er at bestemme, hvordan det tilgængelige datasæt skal opdeles i trænings-, test- og valideringsdatasæt.

Byg model

Kør modelleringsværktøjet på det forberedte datasæt for at oprette en eller flere modeller.

    Parameterindstillinger:Med ethvert modelleringsværktøj er der ofte et stort antal parametre, der kan justeres. Angiv parametrene, deres værdier og begrundelsen for valg af parameterindstillinger.Modeller:Det er modellerne produceret af modelleringsværktøjet, ikke en rapport om modellerne.Modelbeskrivelser:Beskriv de resulterende modeller, rapporter om fortolkningen af ​​modellerne og dokumenter eventuelle vanskeligheder med deres betydning.

Vurder model

Fortolk modellerne i henhold til din domæneviden, succeskriterier for data mining og ønsket testdesign. Vurder succesen med anvendelsen af ​​modellerings- og opdagelsesteknikker, og kontakt derefter forretningsanalytikere og domæneeksperter senere for at diskutere data mining-resultaterne i forretningssammenhæng. Denne opgave tager kun hensyn til modeller, hvorimod evalueringsfasen også tager højde for alle andre resultater produceret i løbet af projektet.

På dette stadium bør du rangere modellerne og vurdere dem i henhold til evalueringskriterierne. Du bør overveje forretningsmålene og succeskriterierne så vidt du kan her. I de fleste data mining-projekter anvendes en enkelt teknik mere end én gang, og data mining-resultater genereres med flere forskellige teknikker.

    Modelvurdering:Opsummerer resultaterne af denne opgave, angiv kvaliteterne af dine genererede modeller (f.eks. med hensyn til nøjagtighed) og rangord deres kvalitet med hinanden.Reviderede parameterindstillinger:I henhold til modelvurderingen skal du revidere dem og justere dem til næste modelkørsel. Gentag modelopbygning og vurdering, indtil du er overbevist om, at du har fundet den eller de bedste modeller. Dokumenter alle sådanne revisioner og vurderinger.

Fase 5: Evaluering

Evaluer dine resultater: Tidligere evalueringstrin omhandlede faktorer som modellens nøjagtighed og generalitet. I løbet af dette trin vil du vurdere, i hvilken grad modellen opfylder dine forretningsmål og søge at afgøre, om der er en forretningsmæssig årsag til, at denne model er mangelfuld. En anden mulighed er at teste modellen på testapplikationer i den rigtige applikation, hvis tids- og budgetbegrænsninger tillader det. Evalueringsfasen involverer også vurdering af andre data mining-resultater, du har genereret. Data mining-resultater involverer modeller, der nødvendigvis er relateret til de oprindelige forretningsmål og alle andre resultater, der ikke nødvendigvis er relateret til de oprindelige forretningsmål, men som også kan afsløre yderligere udfordringer, information eller hints til fremtidige retninger.

    Vurdering af data mining resultater:Opsummer vurderingsresultater i forretningssucceskriterier, herunder en endelig erklæring om, hvorvidt projektet allerede opfylder de oprindelige forretningsmål.Godkendte modeller:Efter vurdering af modeller til forretningssucceskriterier bliver de genererede modeller, der opfylder de valgte kriterier, de godkendte modeller.

Gennemgangsprocessen

På dette tidspunkt ser de resulterende modeller ud til at være tilfredsstillende og tilfredsstille forretningsbehov. Det er nu passende for dig at lave en mere grundig gennemgang af dataminingengagementet for at afgøre, om der er en vigtig faktor eller opgave, som på en eller anden måde er blevet overset. Denne gennemgang dækker også kvalitetssikringsspørgsmål. For eksempel: byggede vi modellen korrekt? Brugte vi kun de attributter, som vi må bruge, og som er tilgængelige for fremtidige analyser?

    Gennemgang af processen:Opsummer procesgennemgangen og fremhæv aktiviteter, der er gået glip af, og dem, der bør gentages.

Bestem næste skridt

Du beslutter nu, hvordan du skal fortsætte afhængigt af vurderingsresultaterne og procesgennemgangen. Afslutter du dette projekt og går videre til implementering, igangsætter yderligere iterationer eller opsætter nye datamining-projekter? Du bør også gøre status over dine resterende ressourcer og budget, hvilket kan påvirke dine beslutninger.

    Liste over mulige handlinger:Angiv de potentielle yderligere handlinger og årsagerne for og imod hver mulighed.Afgørelse:Beskriv beslutningen om, hvordan man fortsætter, sammen med begrundelsen.

Fase 6: Implementering

Planlæg implementering: I implementeringsfasen tager du dine evalueringsresultater og fastlægger en strategi for deres implementering. Hvis der er identificeret en generel procedure til at skabe den/de relevante model(er), er denne procedure dokumenteret her til senere implementering. Det giver mening at overveje måder og midler til implementering i forretningsforståelsesfasen, fordi implementering er afgørende for projektets succes. Det er her prædiktive analyser hjælper med at forbedre din virksomheds operationelle side.

    Implementeringsplan:Opsummer din implementeringsstrategi, herunder de nødvendige trin, og hvordan du udfører dem.

Planlægge overvågning og vedligeholdelse

Overvågning og vedligeholdelse er vigtige emner, hvis data mining-resultatet bliver en del af den daglige forretning og dens miljø. Den omhyggelige forberedelse af en vedligeholdelsesstrategi hjælper med at undgå unødvendigt lange perioder med forkert brug af data mining-resultater. Projektet har brug for en detaljeret overvågningsprocesplan for at overvåge implementeringen af ​​data mining-resultaterne. Denne plan tager højde for den specifikke type implementering.

    Overvågning og vedligeholdelsesplan:Opsummer overvågnings- og vedligeholdelsesstrategien, herunder de nødvendige trin, og hvordan de udføres.

Udarbejde endelig rapport

I slutningen af ​​projektet skriver du en afsluttende rapport. Afhængigt af implementeringsplanen kan denne rapport kun være et resumé af projektet og dets erfaringer (hvis de ikke allerede er dokumenteret som en igangværende aktivitet), eller den kan være en endelig og omfattende præsentation af data mining-resultatet.

    Sidste rapport:Dette er den endelige skriftlige rapport om datamining-engagementet. Det inkluderer alle de tidligere leverancer, opsummering og organisering af resultaterne.Afsluttende præsentation:Der vil ofte være et møde efter projektet, hvor resultaterne præsenteres for kunden.

Gennemgå projekt

strengformat i java

Vurder, hvad der gik rigtigt og forkert, hvad der blev gjort godt, og hvad der skal forbedres.

    Erfaringsdokumentation:Opsummer vigtige erfaringer opnået under projektet. For eksempel kan denne dokumentation omfatte alle faldgruber, du stødte på, vildledende tilgange eller tip til at vælge de bedst egnede data mining-teknikker i lignende situationer. I ideelle projekter dækker erfaringsdokumentation også eventuelle rapporter, som individuelle projektmedlemmer har skrevet i tidligere faser af projektet.