Video: Reglera algoritmer 2024
Människan är nu på ett otrolig skärningspunkt av oöverträffade datamängder, som genereras av allt mindre och kraftfull hårdvara, och analyseras av algoritmer att detsamma processen bidrog till att utvecklas. Det handlar inte bara om volym, vilket i sig är en svår utmaning.
Som formaliserad av forskningsbolaget Gartner 2001 och sedan reprized och expanderat av andra företag, som IBM, kan stora data sammanfattas av fyra V s som representerar de viktigaste egenskaperna:
- Volym: Mängden data
- Hastighet: Datagenerationshastigheten
- Variety: Antalet och typerna av datakällor
- Veracity: Dataens kvalitet och auktoritativa röst (kvantifieringsfel, dålig data och brus blandad med signaler), ett mått på osäkerheten i data
Varje stor dataegenskap erbjuder en utmaning och en möjlighet. Exempelvis beaktar volymen mängden användbar data. Vilken organisation anser stora data kan vara små data för en annan. Oförmågan att bearbeta data på en enda maskin gör inte data stora. Vad som skiljer stor data från affärs-som vanliga data är att det tvingar en organisation att se över sina vanliga metoder och lösningar, och driver nuvarande teknik och algoritmer för att se framåt.
Variety möjliggör användning av stora data för att utmana den vetenskapliga metoden, som förklaras av denna milstolpe och mycket diskuterad artikel skriven av Chris Anderson, Wired s chefredaktör då, hur stora mängder data kan hjälpa vetenskapliga upptäckter utanför den vetenskapliga metoden. Författaren är beroende av Googles exempel i reklam- och översättningsbranscherna, där företaget kunde uppnå framträdande utan att använda specifika modeller eller teorier, utan genom att använda algoritmer för att lära av data. Precis som i reklam kan data från vetenskap (fysik, biologi) stödja innovation som gör det möjligt för forskare att närma sig problem utan hypoteser, men genom att överväga variationerna i stora mängder data och upptäcktsalgoritmer.
Veracity-egenskapen hjälper demokratisering av data själva. Tidigare skakade organisationerna data eftersom det var dyrbart och svårt att erhålla. Vid denna tidpunkt skapar olika källor data i sådana växande belopp som hämtar det meningslöst (90 procent av världens data har skapats under de senaste två åren), så det finns ingen anledning att begränsa tillgången. Data blir till en sådan vara att det finns många öppna dataprogram som går över hela världen.(Förenta staterna har en lång tradition för öppen åtkomst, de första öppna dataprogrammen går tillbaka till 1970-talet när National Oceanic and Atmospheric Administration, NOAA, började släppa väderinformation fritt för allmänheten.) Eftersom data har blivit en vara osäkerheten hos dessa data har blivit ett problem. Du vet inte längre om uppgifterna är helt sanna eftersom du kanske inte ens känner till källan.
Data har blivit så allestädes närvarande att dess värde inte längre finns i den faktiska informationen (t.ex. data som lagras i en företags databas). Värdet av data finns i hur du använder det. Här kommer algoritmerna till spel och förändras spelet. Ett företag som Google levererar sig från fritt tillgängliga data, till exempel innehållet på webbplatser eller texten som finns i offentligt tillgängliga texter och böcker. Ändå härrör värdet av Google-extrakt från data mest från dess algoritmer. Som ett exempel finns datavärde i PageRank-algoritmen (illustrerad i kapitel 11), som är grunden för Googles verksamhet. Värdet av algoritmer är sant för andra företag också. Amazons rekommendationsmotor bidrar till en betydande del av företagets intäkter. Många finansiella företag använder algoritmisk handel och robo-råd, utnyttjar fritt tillgängliga lagerdata och ekonomisk information för investeringar.