Hem Personliga finanser Säkerställa kvaliteten på inkommande externa data - dummies

Säkerställa kvaliteten på inkommande externa data - dummies

Video: Säkerställa undervisningens kvalitet 2025

Video: Säkerställa undervisningens kvalitet 2025
Anonim

När du utformar ett datalager och bestämmer vilken extern data du behöver, lägger du bara en order (liknande beställning av kläder eller en fruktkorg från en webbsida). När du börjar ta emot data via en ström, filöverföring eller något annat sätt är det smidigt segling - eller är det?

Vad sägs om kvaliteten på inkommande data? Du måste absolut tillämpa samma uppsättning kvalitetssäkringsprocedurer för externt tillhandahållen data som du gör för data som kommer från dina egna interna system. Bara för att du köper informationen på den öppna marknaden garanterar inte att uppgifterna är felfria.

Använd QA-procedurer för varje inkommande sats av data genom att följa dessa steg:

  1. Ta reda på om inkommande data har kontrollvärden som bifogas filerna.

    Några exempel på kontrollvärden är antalet poster i varje fil, det totala värdet för varje numerisk kolumn (totala försäljningsdollar för alla poster och totala enheter som säljs för alla poster, till exempel) och deluppsättningar av de totala kolumnvärdena (totalt antal försäljningar och enheter per stat, till exempel).

    Om kontrollvärdena tillhandahålls måste de lagras och användas som en del av laddningsförfarandena från slutet till slutet. Ingen bör officiellt uppdatera lagrets innehåll tills kontrollen överensstämmer med de beräkningar du gjorde när du förberedde data för laddning.

  2. Om det inte finns några kontrollvärden, fråga dem.

    Även om förfrågan kan ta några cykler (till exempel några veckor eller månader) för att fylla, tar alla datortillhandahållare som är intresserade av att tillhandahålla en hög kundservice service denna typ av begäran på allvar och strävar efter att göra den begärda kontrollinformationen tillgängliga.

  3. Filtrera varje rad under dina laddningsprocedurer.

    Se till att följande villkor är sanna:

    1. Nycklar (unika identifierare för varje post) är korrekta över all information. Om till exempel varje post i SalesMasterRecord-gruppen av data måste ha exakt 12 relaterade poster i SalesDetailRecord (en för varje månad), se till att alla detaljrekord är närvarande genom att jämföra registreringsnyckelvärden.

    2. Värdena är korrekta. Produktförsäljning per månad, till exempel, måste vara inom rimlig gräns för den typen av produkt (flygplan skiljer sig exempelvis från bultar).

    3. Saknade informationsfält (en sannolikt - nästan oundviklig - förekomst med externt angiven data) snedvrider inte innebörden av inkommande data.

      Till exempel, om frånvaron av kompletterande data bitar (definierad enligt affärsreglerna för din specifika bransch eller organisation) kanske inte är för allvarligt ett problem, om hälften av inkommande poster har ett tomt utrymme där UnitsSold, TotalSalesPrice, eller någon annan kritisk typ av information borde vara, är värdet av uppgifterna i bästa fall tveksamt.

    4. Använd särskilt dina analytiska verktyg, som beskrivs i kapitel 10, i de tidiga stadierna för att förvärva externa data (för de första tre eller fyra månaderna) för att utföra datakvalitetsanalys innan användarna använder samma verktyg för att utföra verksamhet analys.

      Sök efter oddities, avvikelser, förbryllande resultat, inkonsekvenser, uppenbara paradoxer och allt annat som bara ser konstigt ut. Därefter, borra ner till dataens rötter för att kontrollera källan till weirdness.

      Kom ihåg att du förmodligen hanterar många miljoner rader av inkommande data: Förutom att du inte kan personligen kolla in varje rad, kan det hända att du har svårt att konfigurera dina filtrerings- och QA-kontrollkriterier för alla möjliga villkor.

      Den som någonsin gjort någonting med externt angiven källdata har stött på alla slags märkliga inkonsekvenser och saknar data i den inkommande informationen. Genom att sätta dig själv i användarnas plats och använda samma verktyg som de använder kan du förmodligen upptäcka en sak eller två som du kan korrigera, vilket gör datahantering till en mycket bättre butik av värdefull företagsinformation.

Säkerställa kvaliteten på inkommande externa data - dummies

Redaktörens val

Butik Stora data med HBase-dummies

Butik Stora data med HBase-dummies

HBase är en distribuerad, icke-relativ (kolumnär) databas som använder HDFS som dess uthållighet butik för stora dataprojekt. Den modelleras efter Google BigTable och kan ta emot mycket stora tabeller (miljarder kolumner / rader) eftersom den är lagrad på Hadoop-kluster av råvara. HBase tillhandahåller slumpmässig, realtid läs / skrivåtkomst till stora data. HBase ...

Strömmande algoritmer och blomfilters - dummies

Strömmande algoritmer och blomfilters - dummies

I hjärtat av många strömmande algoritmer är Bloom-filter. Skapat för nästan 50 år sedan av Burton H. Bloom, i en tid då datavetenskapen fortfarande var ganska ung, var den ursprungliga avsikten för denna algoritms skapare att handla utrymme (minne) och / eller tid (komplexitet) mot vad han kallade tillåtna fel. Hans ursprungliga papper heter ...

Lagring av data i Bigtables - dummies

Lagring av data i Bigtables - dummies

En Bigtable har tabeller precis som en RDBMS gör, men i motsats till en RDBMS, en Bigtable tabeller har i allmänhet inga relationer med andra tabeller. Istället grupperas komplexa data i ett enda bord. En tabell i en Bigtable består av grupper av kolumner, kallade kolumnfamiljer och en radnyckel. Dessa tillsammans möjliggör snabb uppslagning av ...

Redaktörens val

Bestämmer publiken för din finansiella modell - dummies

Bestämmer publiken för din finansiella modell - dummies

Som kommer att se eller använda din ekonomiska modell i framtiden ? Om det bara är för egen användning, bör du fortfarande följa bra modelldesign men det är inte nödvändigt att spendera mycket tid på formateringen så att den ser cool ut. Du borde fortfarande lägga till antaganden och källdokumentation för din egen ...

Radera celler och data i Excel 2007 - dummies

Radera celler och data i Excel 2007 - dummies

I Microsoft Office Excel 2007 när du behöver radera data , ta bort formatering i ett cellval, eller ta bort hela celler, rader eller kolumner, du har många alternativ beroende på ditt mål. Excel kan utföra två typer av cellborttagningar i ett kalkylblad: rensa celldata och radera cellen. Rensa cellinnehållet Rensa bara ...

Redigera en diagrams datakälla i Excel 2007 - dummies

Redigera en diagrams datakälla i Excel 2007 - dummies

Efter att du skapat ett diagram i Excel 2007 kan behöva byta intervallet för källdata som ligger till grund för diagrammet. Dialogrutan Välj datakälla låter dig välja ett annat källområde för ett befintligt diagram. Du kan även använda den här dialogrutan för att byta rad och ...

Redaktörens val

Praktiska Excel PivotTable Tools - dummies

Praktiska Excel PivotTable Tools - dummies

Excel PivotTables ger dig ett extremt kraftfullt verktyg för cross-tabulering av arbetsbladdata. Och kanske är det bara vad du förväntar dig av Microsoft och Excel. Men vet du vad? Jag antar att du kan bli förvånad över hur många verktyg som är enkla att använda visas på fliken PivotTable Tools Analyze, som är tillgänglig när ett pivottabell ...

Hur man får tillgång till vanliga redigeringskommandon i Excel 2007 - dummies

Hur man får tillgång till vanliga redigeringskommandon i Excel 2007 - dummies

Ibland vill du göra ändringar i information som du lägger in i Excel 2007-arbetsblad och arbetsböcker (kallas kalkylblad i världen utanför Excel). När så är fallet kan du använda de snygga nycklarna som är inbyggda i Excel 2007 eller komma åt kommandot via fliken Excel Ribbon som är nya i Excel 2007. För att få ...

Hur man får tillgång till vanliga Excel 2007-filkommandon - dummies

Hur man får tillgång till vanliga Excel 2007-filkommandon - dummies

Du kan köra Excel 2007s grundläggande filkommandon i två olika sätt: genom att trycka på en kombination av genvägar eller genom att klicka i Excel-bandet. Följande diagram visar några av de vanligaste filkommandon i Excel 2007 och de två sätten du kan komma åt dem: Excel-kommandotillgänglighetstangenter Funktion Microsoft ...