CRISP-DM står for den tværindustrielle standardproces for data mining. CRISP-DM-metoden giver en struktureret tilgang til planlægning af et datamining-projekt. Det er en robust og gennemprøvet metode. Vi hævder ikke noget ejerskab over det. Vi har ikke opfundet det. Vi er en konverter af dets kraftfulde praktiske, fleksibilitet og anvendelighed, når vi bruger analyser til at løse forretningsproblemer. Det er den gyldne tråd, der løber gennem næsten alle kundemøder.
Denne model er en idealiseret sekvens af begivenheder. I praksis kan mange opgaver udføres i en anden rækkefølge, og det vil ofte være nødvendigt at gå tilbage til tidligere opgaver og gentage visse handlinger. Modellen forsøger ikke at fange alle mulige ruter gennem data mining-processen.
Hvordan hjælper CRISP?
CRISP DM giver en køreplan, den giver dig bedste praksis, og den giver strukturer for bedre og hurtigere resultater af brugen af data mining, så det er sådan, det hjælper virksomheden med at følge med, mens du planlægger og udfører et data mining-projekt.
Faser af CRISP-DM
CRISP-DM giver et overblik over datamining-livscyklussen som procesmodel. Livscyklusmodellen omfatter seks faser, med pile, der angiver de vigtigste og hyppigste afhængigheder mellem faser. Rækkefølgen af faserne er ikke streng. Og de fleste projekter bevæger sig frem og tilbage mellem faserne efter behov. CRISP-DM modellen er fleksibel og kan nemt tilpasses.
For eksempel, hvis din organisation har til formål at opdage hvidvaskning af penge, vil du sandsynligvis gennemsøge store mængder data uden et specifikt modelleringsmål. I stedet for modellering vil dit arbejde fokusere på dataudforskning og visualisering for at afdække mistænkelige mønstre i finansielle data. CRISP-DM giver dig mulighed for at skabe en dataminingmodel, der passer til dine behov.
Den indeholder beskrivelser af typiske faser af et projekt, de opgaver, der er involveret i hver fase, og en forklaring af forholdet mellem disse opgaver.
Fase 1: Forretningsforståelse
Den første fase af CRISP-DM-processen er at forstå, hvad du ønsker at opnå fra et forretningsperspektiv. Din organisation kan have konkurrerende mål og begrænsninger, som skal være korrekt afbalanceret. Denne procesfase har til formål at afdække vigtige faktorer, der har indflydelse på projektets resultat. Forsømmelse af dette trin kan betyde, at der bliver lagt en stor indsats i at producere de rigtige svar på de forkerte spørgsmål.
Hvad er de ønskede resultater af projektet?
Vurder den aktuelle situation
tabel i reaktion
Dette involverer mere detaljeret fact-finding om de ressourcer, begrænsninger, antagelser og andre faktorer, du skal overveje, når du bestemmer dit dataanalysemål og projektplan.
- Personale (forretningseksperter, dataeksperter, teknisk support, datamining-eksperter)
- Data (faste udtræk, adgang til live-, lager- eller driftsdata)
- Computerressourcer (hardwareplatforme)
- Software (data mining-værktøjer, anden relevant software)
- En ordliste med relevant forretningsterminologi udgør en del af den forretningsforståelse, som projektet har til rådighed. Konstruktionen af denne ordliste er en nyttig 'vidensfremkaldelse' og uddannelsesøvelse.
- En ordliste over datamining-terminologi er illustreret med eksempler, der er relevante for forretningsproblemet.
Bestem data mining mål
Et forretningsmål angiver mål i forretningsterminologi. Et data mining-mål angiver projektmål i tekniske termer. For eksempel kan forretningsmålet være Øge katalogsalget til eksisterende kunder. Et data mining-mål kan være at forudsige, hvor mange widgets en kunde vil købe, givet deres køb over de seneste tre år, demografiske oplysninger (alder, løn, by osv.) og varens pris.
Udarbejde projektplan
Beskriv den påtænkte plan for at nå data mining-målene og forretningsmålene. Din plan bør specificere de trin, der skal udføres under resten af projektet, herunder det første valg af værktøjer og teknikker.
1. Projektplan: Angiv de stadier, der skal udføres i projektet, med deres varighed, nødvendige ressourcer, input, output og afhængigheder. Hvor det er muligt, prøv at eksplicitere de store gentagelser i data mining-processen, for eksempel gentagelser af modellerings- og evalueringsfaserne.
Som en del af projektplanen er det vigtigt at analysere afhængighederne mellem tidsplaner og risici. Markér resultaterne af disse analyser eksplicit i projektplanen, ideelt set med handlinger og anbefalinger, hvis risiciene viser sig. Beslut hvilken evalueringsstrategi, der skal bruges i evalueringsfasen.
Din projektplan vil være et dynamisk dokument. I slutningen af hver fase vil du gennemgå fremskridt og resultater og opdatere projektplanen i overensstemmelse hermed. Specifikke gennemgangspunkter for disse opdateringer bør være en del af projektplanen.
2. Indledende vurdering af værktøjer og teknikker: I slutningen af den første fase skal du foretage en indledende vurdering af værktøjer og teknikker. For eksempel vælger du et dataminingværktøj, der understøtter forskellige metoder til forskellige stadier af processen. Det er vigtigt at vurdere værktøjer og teknikker tidligt i processen, da valget af værktøjer og teknikker kan påvirke hele projektet.
Fase 2: Dataforståelse
Den anden fase af CRISP-DM-processen kræver, at du erhverver de data, der er anført i projektressourcerne. Denne indledende indsamling inkluderer dataindlæsning, hvis dette er nødvendigt for at forstå data. Hvis du for eksempel bruger et specifikt værktøj til dataforståelse, giver det perfekt mening at indlæse dine data i dette værktøj. Hvis du anskaffer flere datakilder, skal du overveje, hvordan og hvornår du vil integrere disse.
Beskriv data
Undersøg 'brutto' eller 'overflade' egenskaberne for de indhentede data og rapporter om resultaterne.
medietransmission
Udforsk data
I løbet af denne fase vil du behandle datamining-spørgsmål ved hjælp af forespørgsler, datavisualisering og rapporteringsteknikker. Disse kan omfatte:
- Fordeling af nøgleattributter
- Relationer mellem par eller et lille antal attributter
- Resultater af simple sammenlægninger
- Egenskaber for væsentlige delpopulationer
- Simple statistiske analyser
Disse analyser kan direkte adressere dine data mining-mål. De kan bidrage til eller forfine databeskrivelsen og kvalitetsrapporterne og indgå i transformationen og andre dataforberedelsestrin, der er nødvendige for yderligere analyse.
Bekræft datakvaliteten
Undersøg kvaliteten af dataene ved at behandle spørgsmål som:
- Er dataene fuldstændige, eller dækker de alle de påkrævede sager?
- Er det korrekt, eller indeholder det fejl, og hvis der er fejl, hvor almindelige er de så?
- Mangler der værdier i dataene? Hvis ja, hvordan er de repræsenteret, hvor forekommer de, og hvor almindelige er de?
Datakvalitetsrapport
Liste resultaterne af datakvalitetsverifikationen. Hvis der er kvalitetsproblemer, foreslå mulige løsninger. Løsninger på datakvalitetsproblemer afhænger generelt i høj grad af data og forretningskendskab.
Fase 3: Dataforberedelse
I denne projektfase beslutter du dig for, hvilke data du vil bruge til analyse. De kriterier, du kan bruge til at træffe denne beslutning, omfatter relevansen af dataene for dine data mining-mål, dataens kvalitet og tekniske begrænsninger såsom begrænsninger for datamængde eller datatyper.
Rens dine data
Denne opgave involverer at hæve datakvaliteten til det niveau, der kræves af de analyseteknikker, du har valgt. Dette kan involvere udvælgelse af rene delmængder af dataene, indsættelse af passende standardværdier eller mere ambitiøse teknikker såsom estimering af manglende data ved modellering.
Konstruer nødvendige data
Denne opgave omfatter konstruktive dataforberedelsesoperationer, såsom fremstilling af afledte attributter, helt nye poster eller transformerede værdier for eksisterende attributter.
java software mønstre
Integrer data
Disse metoder kombinerer information fra flere databaser, tabeller eller poster for at skabe nye poster eller værdier.
Fase 4: Modellering
Vælg modelleringsteknik: Som det første trin skal du vælge den grundlæggende modelleringsteknik, du vil bruge. Selvom du måske allerede har valgt et værktøj under forretningsforståelsesfasen, vil du på dette stadium vælge den specifikke modelleringsteknik, f.eks. beslutningstræbygning med C5.0 eller neural netværksgenerering med tilbageudbredelse. Hvis der anvendes flere teknikker, skal du udføre denne opgave separat for hver teknik.
string sammenligne java
Generer testdesign
Før du bygger en model, skal du generere en procedure eller mekanisme til at teste modellens kvalitet og validitet. For eksempel i overvågede datamining-opgaver såsom klassificering er det almindeligt at bruge fejlrater som kvalitetsmål for datamining-modeller. Derfor opdeler man typisk datasættet i tog- og testsæt, bygger modellen på togsættet og vurderer dets kvalitet på det separate testsæt.
Byg model
Kør modelleringsværktøjet på det forberedte datasæt for at oprette en eller flere modeller.
Vurder model
Fortolk modellerne i henhold til din domæneviden, succeskriterier for data mining og ønsket testdesign. Vurder succesen med anvendelsen af modellerings- og opdagelsesteknikker, og kontakt derefter forretningsanalytikere og domæneeksperter senere for at diskutere data mining-resultaterne i forretningssammenhæng. Denne opgave tager kun hensyn til modeller, hvorimod evalueringsfasen også tager højde for alle andre resultater produceret i løbet af projektet.
På dette stadium bør du rangere modellerne og vurdere dem i henhold til evalueringskriterierne. Du bør overveje forretningsmålene og succeskriterierne så vidt du kan her. I de fleste data mining-projekter anvendes en enkelt teknik mere end én gang, og data mining-resultater genereres med flere forskellige teknikker.
Fase 5: Evaluering
Evaluer dine resultater: Tidligere evalueringstrin omhandlede faktorer som modellens nøjagtighed og generalitet. I løbet af dette trin vil du vurdere, i hvilken grad modellen opfylder dine forretningsmål og søge at afgøre, om der er en forretningsmæssig årsag til, at denne model er mangelfuld. En anden mulighed er at teste modellen på testapplikationer i den rigtige applikation, hvis tids- og budgetbegrænsninger tillader det. Evalueringsfasen involverer også vurdering af andre data mining-resultater, du har genereret. Data mining-resultater involverer modeller, der nødvendigvis er relateret til de oprindelige forretningsmål og alle andre resultater, der ikke nødvendigvis er relateret til de oprindelige forretningsmål, men som også kan afsløre yderligere udfordringer, information eller hints til fremtidige retninger.
Gennemgangsprocessen
På dette tidspunkt ser de resulterende modeller ud til at være tilfredsstillende og tilfredsstille forretningsbehov. Det er nu passende for dig at lave en mere grundig gennemgang af dataminingengagementet for at afgøre, om der er en vigtig faktor eller opgave, som på en eller anden måde er blevet overset. Denne gennemgang dækker også kvalitetssikringsspørgsmål. For eksempel: byggede vi modellen korrekt? Brugte vi kun de attributter, som vi må bruge, og som er tilgængelige for fremtidige analyser?
Bestem næste skridt
Du beslutter nu, hvordan du skal fortsætte afhængigt af vurderingsresultaterne og procesgennemgangen. Afslutter du dette projekt og går videre til implementering, igangsætter yderligere iterationer eller opsætter nye datamining-projekter? Du bør også gøre status over dine resterende ressourcer og budget, hvilket kan påvirke dine beslutninger.
Fase 6: Implementering
Planlæg implementering: I implementeringsfasen tager du dine evalueringsresultater og fastlægger en strategi for deres implementering. Hvis der er identificeret en generel procedure til at skabe den/de relevante model(er), er denne procedure dokumenteret her til senere implementering. Det giver mening at overveje måder og midler til implementering i forretningsforståelsesfasen, fordi implementering er afgørende for projektets succes. Det er her prædiktive analyser hjælper med at forbedre din virksomheds operationelle side.
Planlægge overvågning og vedligeholdelse
Overvågning og vedligeholdelse er vigtige emner, hvis data mining-resultatet bliver en del af den daglige forretning og dens miljø. Den omhyggelige forberedelse af en vedligeholdelsesstrategi hjælper med at undgå unødvendigt lange perioder med forkert brug af data mining-resultater. Projektet har brug for en detaljeret overvågningsprocesplan for at overvåge implementeringen af data mining-resultaterne. Denne plan tager højde for den specifikke type implementering.
Udarbejde endelig rapport
I slutningen af projektet skriver du en afsluttende rapport. Afhængigt af implementeringsplanen kan denne rapport kun være et resumé af projektet og dets erfaringer (hvis de ikke allerede er dokumenteret som en igangværende aktivitet), eller den kan være en endelig og omfattende præsentation af data mining-resultatet.
Gennemgå projekt
strengformat i java
Vurder, hvad der gik rigtigt og forkert, hvad der blev gjort godt, og hvad der skal forbedres.