Video: frekvensfordeling organisering av data 2024
Data mining har mycket strikta krav för dataanalys. De är inte exotiska, komplexa eller svåra krav att mötas, men de är strikta. Figuren visar ett urval data som ses som en tabell i datautvinningsprogram.
Varje rad representerar ett paket fastigheter. Information om fastighetspaket är organiserad i kolumner. Den första kolumnen innehåller skatteidentifikationsnumret (TAXKEY), den andra kolumnen innehåller landets bedömda värde från en tidigare bedömning (P_A_LAND), och så vidare.
Varje post i någon rad avser ett specifikt paket av mark. Varje post i en kolumn är samma typ av information. Inga rader eller kolumner lämnas tomma av skäl som är relaterade till stil och läsbarhet. Dessa data är ordentligt organiserade för att undersöka skillnaderna mellan fastighetspaket.
Om du i stället för fastigheter undersöker personer, skulle varje person representeras av en rad i data, och alla detaljer om folket skulle organiseras i kolumner. Om du undersöker röntgenstrålar i bröstet, skulle varje röntgenstråle vara representerad av en rad i data, och alla detaljer om röntgenstrålarna skulle organiseras i kolumner.
I dataanalysterminologi kallas de saker du studerar - saker i raderna - fall eller poster. Och detaljerna om dem, som finns i kolumnerna, heter variabler . Du kommer också att höra kolumnerna som heter , , särskilt i samband med databaser.
Så, data mining kräver data som är organiserad med en enda rad för varje enskilt fall och en enda kolumn för varje variabel. Många datakällor är redan organiserade på detta sätt. Statistiker organiserar data på detta sätt med vana. Databasproffs kan inte använda detta tillvägagångssätt för mycket av sitt arbete, men de brukar förstå vad du vill om du kallar det ett plattbord.
Du hittar subtila variationer i datastrukturen. Vissa typer av programvara använder beskrivande information i en rubrik före data, till exempel vissa specialformat som är associerade med Orange och Weka data-mining applikationer. Vissa komplexa analytiska förfaranden har ytterligare eller något varierade krav (det är ganska ovanligt). Men kärnan i data har fortfarande fallen i rader och variabler i kolumner.