Hem Personliga finanser Träning, validering och testning i maskinlärande - dummies

Träning, validering och testning i maskinlärande - dummies

Video: Process Validation for Medical Device Manufacturers 2025

Video: Process Validation for Medical Device Manufacturers 2025
Anonim

I en perfekt värld kan du utföra ett test på data som din maskininlärningsalgoritm aldrig har lärt sig tidigare. Det är dock inte alltid möjligt att vänta på färsk data när det gäller tid och kostnader.

Som en första enkel åtgärd kan du slumpmässigt dela upp dina data i tränings- och testuppsättningar. Den gemensamma splittringen är från 25 till 30 procent för testning och resterande 75 till 70 procent för träning. Du delar upp dina data som består av ditt svar och funktioner samtidigt, korrespondens mellan varje svar och dess funktioner.

Den andra åtgärden uppstår när du behöver ställa in din inlärningsalgoritm. I detta fall är testdelad data inte en bra metod eftersom det orsakar en annan typ av överfitting kallad snooping. För att övervinna snooping behöver du en tredje split, kallad en valideringsuppsättning. En föreslagen delning är att få dina exempel uppdelade i tredjedelar: 70 procent för träning, 20 procent för validering och 10 procent för testning.

Du ska utföra delningen slumpmässigt, det vill säga oberoende av den ursprungliga beställningen av data. Annars är ditt test inte pålitligt, eftersom beställning kan orsaka överskattning (när det finns en meningsfull beställning) eller underskattning (när distributionen skiljer sig åt för mycket). Som en lösning måste du försäkra dig om att testuppsättningen inte skiljer sig mycket från träningsfördelningen, och att sekventiell beställning sker i delad data.

Kontrollera till exempel om identifieringsnummer, när de är tillgängliga, är kontinuerliga i dina uppsättningar. Ibland kan du inte alltid få liknande fördelningar bland uppsättningar, speciellt när ditt antal exempel är små, om du strikt följer abstrakta provtagningar.

När ditt antal exempel n är högt, till exempel n> 10, 000, kan du helt säkert skapa en slumpmässigt delad dataset. När datasetet är mindre kan du jämföra basstatistik som medelvärde, läge, median och varians över svaret och funktionerna i tränings- och testuppsättningarna för att du förstår om testuppsättningen är olämplig. När du inte är säker på att delningen är rätt, räkna bara om en ny.

Träning, validering och testning i maskinlärande - dummies

Redaktörens val

Hur man skapar en webbplats i Dreamweaver - dummies

Hur man skapar en webbplats i Dreamweaver - dummies

Definierar en Dreamweaver-webbplats mer smidigt om du har filer du planerar att använda på din webbplats organiserade i en mapp - med, om du vill, undermappar för bilder, video och kanske andra element som ljud. Med dina filer separerade i en organiserad mappstruktur är du redo att definiera en Dreamweaver-webbplats. ...

Hur man skapar en HTML-sida med Dreamweavers nya dokumentfönster - dummies

Hur man skapar en HTML-sida med Dreamweavers nya dokumentfönster - dummies

Du kan skapa en HTML-sida ny HTML-sida genom att använda Dreamweaver's New Document-fönstret, som erbjuder fler alternativ än Välkommen-skärmen, inklusive tillgång till alla mallar du har skapat med Dreamweaver, samt en samling av förutformade layouter, vilket kan ge dig en början på dina design. Du kan skapa många typer av filer ...

Hur man skapar en layout med en kolumn i Dreamweaver - dummies

Hur man skapar en layout med en kolumn i Dreamweaver - dummies

Innan du dyka in för att skapa en komplicerad vätskegriddesign i Dreamweaver, överväg att prova en enklare. Börja med att skapa en enkel vätskegridlayout med en kolumn, följ dessa enkla instruktioner: Välj Arkiv → Nytt. Fönstret Ny dokument öppnas. Obs! Se till att du har slutfört installationsprocessen innan du börjar arbeta med en ny vätska ...

Redaktörens val

Hur man använder Urklippspanel i Excel 2010 - dummies

Hur man använder Urklippspanel i Excel 2010 - dummies

Office Urklipp kan lagra flera nedskärningar och kopior från alla Microsoft Office-program som körs under Windows, inte bara Excel 2010. I Excel betyder det att du kan fortsätta klistra in saker från Office Clipboard i en arbetsbok även efter avslutad flyttning eller kopiering. Använd följande tekniker för att arbeta med ...

Hur man använder referensfunktioner i Excel 2016 - dummies

Hur man använder referensfunktioner i Excel 2016 - dummies

Referensfunktionerna i Excel 2016 på Lookup & Reference Kommandoknappens rullgardinsmeny på Formulas-fliken i bandet är utformad för att specifikt hantera olika aspekter av cellreferenser i arbetsbladet. Denna grupp av funktioner inkluderar: ADRESS för att returnera en cellreferens som en textinmatning i en cell i ...

Hur man använder Sparklines i Excel 2016 - dummies

Hur man använder Sparklines i Excel 2016 - dummies

Excel 2016 stöder en speciell typ av informationsgrafik kallad sparkline som representerar trender eller variationer i samlade data. Sparklines är små grafer i allmänhet om storleken på texten som omger dem. I Excel 2016 är kalkylblad höjden på kalkylbladscellerna, vars data de representerar och kan vara någon av de ...

Redaktörens val

Hur man undviker analysfel på Miller Analogies Test - dummies

Hur man undviker analysfel på Miller Analogies Test - dummies

Miller Analogies Testwriters är bra på att komponera frågor som är subtilt utformade för att lura dig. Du kan undvika vanliga analogfällor på MAT, om du har en plan för attack och en metod för att lösa dem. I allmänhet är den senare frågan i MAT, desto mer sannolikt är det ...

Hur man registrerar sig för MAT (Miller Analogies Test) - dummies

Hur man registrerar sig för MAT (Miller Analogies Test) - dummies

Efter att ha beslutat att ta Miller Analogies Test (MAT), du måste hitta en plats att faktiskt ta provet. Mer än 600 CTC, eller kontrollerade testcenter, administrerar matvaran i hela USA och Kanada, och även utomlands. För att hitta ett testcenter, gå till Miller Analogies Test-webbplatsen och leta efter en ...