Matchande data för algoritmer från olika källor - dummies

Video: Recommender Systems 2024

Samverkan med data från en enda källa är ett problem; Att interagera med data från flera källor är helt annat. Däremot kommer dataset i dag generellt från mer än en källa, så du behöver förstå de komplikationer som med hjälp av flera datakällor kan orsaka. När du arbetar med flera datakällor måste du göra följande:

Bestäm om båda dataseten innehåller alla nödvändiga data. Två designers är osannolikt att skapa dataset som innehåller exakt samma data, i samma format, av samma typ och i samma ordning. Följaktligen måste du överväga om dataseten innehåller de data du behöver eller om du behöver rätta till data på något sätt för att få det önskade resultatet.
Kontrollera båda dataseten för datatypproblem. En dataset kan ha datum som ingångar som strängar, och en annan kan ha datum som inmatas som aktuella datumobjekt. Inkonsekvenser mellan datatyper kommer att orsaka problem för en algoritm som förväntar sig data i en form och tar emot den i en annan.
Se till att alla dataset har samma betydelse på dataelementen. Data som skapats av en källa kan ha en annan betydelse än data som skapats av en annan källa. Till exempel kan storleken på ett heltal variera över källor, så du kan se ett 16-bitars heltal från en källa och ett 32-bitars heltal från en annan. Lägre värden har samma betydelse, men 32-bitars heltal kan innehålla större värden, vilket kan orsaka problem med algoritmen. Datum kan också orsaka problem eftersom de ofta är beroende av att lagra så många millisekunder sedan ett givet datum (till exempel JavaScript, som lagrar antalet millisekunder sedan 01 januari 1970 UTC). Datorn ser bara siffror; människor lägger mening till dessa nummer så att applikationer tolkar dem på specifika sätt.
Verifiera dataattributen. Dataposter har specifika egenskaper. Denna tolkning kan ändras när du använder numpy . Faktum är att dataattributen förändras mellan miljöer och utvecklare kan ändra dem ännu mer genom att skapa anpassade datatyper. För att kombinera data från olika källor måste du förstå dessa attribut för att säkerställa att du tolkar data korrekt.

Ju mer tid du spenderar för att verifiera kompatibiliteten av data från varje av de källor du vill använda för en dataset, desto mindre sannolikt kommer du att stöta på problem när du arbetar med en algoritm. Problemkompatibilitetsproblem uppstår inte alltid som felaktiga fel. I vissa fall kan en inkompatibilitet orsaka andra problem, såsom felaktiga resultat som ser rätt ut men ger vilseledande information.

Kombinera data från flera källor betyder inte alltid att du skapar en ny dataset som liknar källkodsuppsättningen. I vissa fall skapar du dataaggregat eller utför andra former av manipulation för att skapa nya data från befintliga data. Analysen tar alla slags former, och några av de mer exotiska formerna kan skapa fruktansvärda fel när de används felaktigt. Till exempel kan en datakälla ge generell kundinformation och en andra datakälla kan ge kunderna köpvanor. Mismatcher mellan de två källorna kan matcha kunder med felaktig inköp av vanainformation och orsaka problem när du försöker marknadsföra nya produkter till dessa kunder. Som ett extremt exempel, överväga vad som skulle hända när man kombinerar patientinformation från flera källor och skapar kombinerade patientposter i en ny datakälla med alla möjliga missförhållanden. En patient utan historia av en viss sjukdom kan sluta med journaler som visar diagnos och bryr sig om sjukdomen.