Innehållsförteckning:
- Uppgift: Val av modelleringsteknik
- Uppgift: Utformning av test
- Uppgift: Byggnadsmodeller
- Uppgift: Bedömning av modeller
Video: RESUMEN | FAS 4-1 El Vencedor | Jornada 16 Apertura 2019 2024
Modellering är en del av processmodellen Cross-Industry Standard Process for Data Mining (CRISP-DM) gruvarbetare som bäst. Dina data är redan i god form, och nu kan du söka efter användbara mönster i dina data.
Modelleringsfasen innehåller fyra uppgifter. Dessa är
-
Val av modelleringstekniker
-
Utformning av test (er)
-
Byggnadsmodeller
-
Bedömning av modeller
Uppgift: Val av modelleringsteknik
Den underbara världen av data mining erbjuder modeller av modelleringstekniker, men inte alla kommer att passa dina behov. Begränsa listan baserat på de olika typerna av variabler, valet av tekniker som finns tillgängliga i dina verktyg och eventuella affärsmässiga överväganden som är viktiga för dig.
Till exempel föredrar många organisationer metoder med utdata som är lätta att tolka, så besluts träd eller logistisk regression kan vara acceptabelt, men neurala nätverk skulle antagligen inte accepteras.
Leveranserna för den här uppgiften inkluderar två rapporter:
-
Modelingsteknik: Ange de tekniker som du ska använda.
-
Modelleringsantaganden: Många modelleringstekniker bygger på vissa antaganden. Exempelvis kan en modelltyp vara avsedd för användning med data som har en specifik typ av distribution. Dokumentera dessa antaganden i denna rapport.
Statistiker är välinformerade, strikta och noga med antaganden. Det är inte nödvändigtvis sant för datavinnare, och det är inte ett krav att bli dataingruvare. Om du har djup statistisk kunskap och förstår antagandena bakom de modeller du väljer kan du vara strikt och noga om antaganden.
Men många datavinnare, speciellt nybörjare data minare, bråkar inte mycket över antaganden. Alternativet testar - mycket och mycket testning - av dina modeller.
Uppgift: Utformning av test
Testet i den här uppgiften är det test som du ska använda för att bestämma hur bra din modell fungerar. Det kan vara så enkelt att dela upp dina data i en grupp fall för modellutbildning och en annan grupp för modelltestning.
Träningsdata används för att passa matematiska formulär till datamodellen, och testdata används under modellutbildningen för att undvika övermontering: gör en modell som är perfekt för en dataset men ingen annan. Du kan också använda holdout data, data som inte används under modellutbildningen, för ett ytterligare test.
Den leveransbara för denna uppgift är din testdesign. Det behöver inte vara noggrant, men du bör åtminstone ta hand om att dina tränings- och testdata är likartade och att du undviker att införa någon bias i data.
Uppgift: Byggnadsmodeller
Modellering är det som många människor föreställer sig att vara datainställarens hela jobb, men det är bara en uppgift av dussintals! Modellering för att ta itu med specifika affärsmål är dock hjärtat i datavinnningsindustrin.
Leveranserna för den här uppgiften inkluderar tre punkter:
-
Parameterinställningar: När du bygger modeller ger de flesta verktyg möjlighet att justera en mängd olika inställningar och dessa inställningar påverkar strukturen hos den slutliga modellen. Dokumentera dessa inställningar i en rapport.
-
Modellbeskrivningar: Beskriv dina modeller. Ange typ av modell (t.ex. linjär regression eller neuralt nätverk) och variablerna som används. Förklara hur modellen tolkas. Dokumentera eventuella problem som uppstått vid modelleringsprocessen.
-
Modeller: Denna leverans är modellerna själva. Vissa modelltyper kan enkelt definieras med en enkel ekvation; Andra är alltför komplexa och måste överföras i ett mer sofistikerat format.
Uppgift: Bedömning av modeller
Nu kommer du att granska de modeller du skapat, både tekniskt och affärsmässigt (ofta med inmatning från företagsexperter på ditt projektteam).
Leveranser för denna uppgift innehåller två rapporter:
-
Modellbedömning: Sammanfattar informationen som utvecklats i din modellgranskning. Om du har skapat flera modeller kan du rangordna dem baserat på din bedömning av deras värde för en specifik applikation.
-
Ändrade parameterinställningar: Du kan välja att finjustera inställningar som användes för att bygga modellen och genomföra en annan modellrunda och försöka förbättra dina resultat.
Data mining, som en lök, en Dobos torte, eller en sedimentär rock, har massor av lager. När du bara har börjat i datautvinning kan du börja med att lämna parametervärdena till standardvärdena (i själva verket kanske du inte ens märker alternativ om du inte försöker söka efter dem).
När du blir bekväm i din nya data mining karriär, är det meningsfullt att du får reda på modellparametrar och vet hur du kan använda dem. Dina alternativ varierar mycket med typen av modell och specifikt verktyg som du använder.