Video: Process Validation for Medical Device Manufacturers 2024
I en perfekt värld kan du utföra ett test på data som din maskininlärningsalgoritm aldrig har lärt sig tidigare. Det är dock inte alltid möjligt att vänta på färsk data när det gäller tid och kostnader.
Som en första enkel åtgärd kan du slumpmässigt dela upp dina data i tränings- och testuppsättningar. Den gemensamma splittringen är från 25 till 30 procent för testning och resterande 75 till 70 procent för träning. Du delar upp dina data som består av ditt svar och funktioner samtidigt, korrespondens mellan varje svar och dess funktioner.
Den andra åtgärden uppstår när du behöver ställa in din inlärningsalgoritm. I detta fall är testdelad data inte en bra metod eftersom det orsakar en annan typ av överfitting kallad snooping. För att övervinna snooping behöver du en tredje split, kallad en valideringsuppsättning. En föreslagen delning är att få dina exempel uppdelade i tredjedelar: 70 procent för träning, 20 procent för validering och 10 procent för testning.
Du ska utföra delningen slumpmässigt, det vill säga oberoende av den ursprungliga beställningen av data. Annars är ditt test inte pålitligt, eftersom beställning kan orsaka överskattning (när det finns en meningsfull beställning) eller underskattning (när distributionen skiljer sig åt för mycket). Som en lösning måste du försäkra dig om att testuppsättningen inte skiljer sig mycket från träningsfördelningen, och att sekventiell beställning sker i delad data.
Kontrollera till exempel om identifieringsnummer, när de är tillgängliga, är kontinuerliga i dina uppsättningar. Ibland kan du inte alltid få liknande fördelningar bland uppsättningar, speciellt när ditt antal exempel är små, om du strikt följer abstrakta provtagningar.
När ditt antal exempel n är högt, till exempel n> 10, 000, kan du helt säkert skapa en slumpmässigt delad dataset. När datasetet är mindre kan du jämföra basstatistik som medelvärde, läge, median och varians över svaret och funktionerna i tränings- och testuppsättningarna för att du förstår om testuppsättningen är olämplig. När du inte är säker på att delningen är rätt, räkna bara om en ny.