Hem Personliga finanser Träning, validering och testning i maskinlärande - dummies

Träning, validering och testning i maskinlärande - dummies

Video: Process Validation for Medical Device Manufacturers 2025

Video: Process Validation for Medical Device Manufacturers 2025
Anonim

I en perfekt värld kan du utföra ett test på data som din maskininlärningsalgoritm aldrig har lärt sig tidigare. Det är dock inte alltid möjligt att vänta på färsk data när det gäller tid och kostnader.

Som en första enkel åtgärd kan du slumpmässigt dela upp dina data i tränings- och testuppsättningar. Den gemensamma splittringen är från 25 till 30 procent för testning och resterande 75 till 70 procent för träning. Du delar upp dina data som består av ditt svar och funktioner samtidigt, korrespondens mellan varje svar och dess funktioner.

Den andra åtgärden uppstår när du behöver ställa in din inlärningsalgoritm. I detta fall är testdelad data inte en bra metod eftersom det orsakar en annan typ av överfitting kallad snooping. För att övervinna snooping behöver du en tredje split, kallad en valideringsuppsättning. En föreslagen delning är att få dina exempel uppdelade i tredjedelar: 70 procent för träning, 20 procent för validering och 10 procent för testning.

Du ska utföra delningen slumpmässigt, det vill säga oberoende av den ursprungliga beställningen av data. Annars är ditt test inte pålitligt, eftersom beställning kan orsaka överskattning (när det finns en meningsfull beställning) eller underskattning (när distributionen skiljer sig åt för mycket). Som en lösning måste du försäkra dig om att testuppsättningen inte skiljer sig mycket från träningsfördelningen, och att sekventiell beställning sker i delad data.

Kontrollera till exempel om identifieringsnummer, när de är tillgängliga, är kontinuerliga i dina uppsättningar. Ibland kan du inte alltid få liknande fördelningar bland uppsättningar, speciellt när ditt antal exempel är små, om du strikt följer abstrakta provtagningar.

När ditt antal exempel n är högt, till exempel n> 10, 000, kan du helt säkert skapa en slumpmässigt delad dataset. När datasetet är mindre kan du jämföra basstatistik som medelvärde, läge, median och varians över svaret och funktionerna i tränings- och testuppsättningarna för att du förstår om testuppsättningen är olämplig. När du inte är säker på att delningen är rätt, räkna bara om en ny.

Träning, validering och testning i maskinlärande - dummies

Redaktörens val

Hur man konfigurerar Outlook's skräppostfilter - dummies

Hur man konfigurerar Outlook's skräppostfilter - dummies

Du kan anpassa känsligheten för Outlook's skräppostfilter i Outlook-alternativ. Om du anger att det är mycket aggressivt, kommer färre skräppostmeddelanden att komma igenom, men det kan ibland markera legitima meddelanden som skräp. Om du ställer in det för att vara mindre aggressivt får du mer skräp i inkorgen. Outlook kommer med ...

Hur man skapar en kontaktgrupp i Outlook 2013 - dummies

Hur man skapar en kontaktgrupp i Outlook 2013 - dummies

Skapa en kontaktgrupp i Outlook 2013 är en enkel fråga om att skapa ett namn på din lista och välja från samlingen av namn du har lagrat på ditt system. En kontaktgrupp följer inte telefonnummer och adresser, bara e-postadresser. För att skapa en kontaktgrupp i din Kontakter-modul, ...

Hur man skapar ett möte med Outlook på din mobila enhet - dummies

Hur man skapar ett möte med Outlook på din mobila enhet - dummies

Båda versionerna av mobil Outlook Kalender har ett framstående plustecken du kan knacka på för att öppna det nya mötesformuläret. För att ställa in specifika detaljer om det avtal du har tänkt på, tryck på varje textrad på formuläret för att visa inställningar för den detaljen. Du kan ställa in datum, tid, plats och mer med ...

Redaktörens val

Externa kontroller på Canon Rebel T5i / 700D-kameran - dummies

Externa kontroller på Canon Rebel T5i / 700D-kameran - dummies

Få hjälp med att hitta knapparna, ratt och andra externa kontroller på din Canon Rebel T5i / 700D dSLR digitalkamera. Spela in filmer, spela upp bilder och välja fotograferingslägen börjar här. Linsen som visas på den digitala kameran nedan är Canon EF-S 18-55 mm (S (Bildstabiliserings) -modell som säljs med kameran. Andra objektiv kan variera. ...

Exponeringslägen för Canon EOS Rebel T3 Series-kameror - dummies

Exponeringslägen för Canon EOS Rebel T3 Series-kameror - dummies

Den allra första inställningen för bildtagning överväga med din Canon Rebel T3 eller T3i är exponeringsläget, som du väljer via lägesratten. Ditt val bestämmer hur mycket kontroll du har över två kritiska exponeringsinställningar - bländare och slutartid - liksom många andra alternativ, inklusive de som är relaterade till färg ...

Redaktörens val

Hur man säkrar din webbhotellsserver server - dummies

Hur man säkrar din webbhotellsserver server - dummies

Säkerhet är en stor sak online och Det finns inga magiska lösningar för att göra din webbhanteringsserver absolut säker, oavsett vad någon annan kan berätta för dig. Famously tidigare, säkra nätverk av banker, internationella företag, myndigheter, CIA, försvarsdepartementet - även Microsoft, Google och Apple - ...

Hur man konfigurerar webbhotell med webbhotell - dummies

Hur man konfigurerar webbhotell med webbhotell - dummies

När en användare begär en sida från Din webbplats, en av de saker som din webbplats gör är att returnera en statuskod på en fel sida, som signalerar antingen en framgång eller ett fel. Servern loggar alla dessa koder så att du kan se hur många sidor som blir fel och hur många är ...

Hur man uppdaterar webbhotellsserverprogramvaran - dummies

Hur man uppdaterar webbhotellsserverprogramvaran - dummies

Det finns ingen enda plats för att säkerställa att alla webbhotellsserverprogramvaror är aktuella. Det finns helt enkelt för många olika programstycken och olika alternativ för att göra det möjligt. Du kan dock göra vissa serveruppdateringar automatiskt eller manuellt genom att använda följande metoder: Automatiska WHM-uppdateringar Så här konfigurerar du servern ...