Hem Personliga finanser Skrapning, insamling och hantering av datavetenskapsverktyg - dummies

Skrapning, insamling och hantering av datavetenskapsverktyg - dummies

Innehållsförteckning:

Video: Build Tomorrow's Library by Jeffrey Licht 2024

Video: Build Tomorrow's Library by Jeffrey Licht 2024
Anonim

Om du behöver data för att stödja en företagsanalys eller en kommande journalistik, kan webbskrapning hjälpa dig att spåra intressanta och unika datakällor. I webbskrapning konfigurerar du automatiserade program och låter dem skura webben för de data du behöver. Här är gratis verktyg som du kan använda för att skrapa data eller bilder, inklusive import. io, ImageQuilts och DataWrangler.

Skrapdata med import. io

Har du någonsin försökt att kopiera och klistra in ett bord från webben till ett Microsoft Office-dokument och sedan inte lyckats få kolumnerna att ordna sig rätt? Fräckande, eller hur? Det här är exakt smärtan som importeras. Io var utformad för att ta itu med.

import. io-uttalad "import-eye-oh" - är ett gratis skrivbordsprogram som du kan använda för att smärtfritt kopiera, klistra in, rengöra och formatera vilken del av en webbsida som helst med några få musklick. Du kan även använda importen. för att automatiskt krypa och extrahera data från flersidiga listor.

Använda import. Io kan du skrapa data från en enkel eller komplicerad serie webbsidor:

  • Enkelt: Öppna webbsidorna genom enkla hyperlänkar som visas på sidan 1, sidan 2, s. 3.

  • Komplicerat: > Fyll i ett formulär eller välj från en rullgardinslista och skicka in din skrapförfrågan till verktyget. import. IOs mest imponerande funktion är dess förmåga att observera dina musklick för att lära dig vad du vill, och sedan erbjuda dig sätt att det automatiskt kan slutföra dina uppgifter för dig. Även om importen. jag lär mig och föreslår uppgifter, det handlar inte om åtgärderna förrän du har markerat förslaget som korrekt. Följaktligen minskar dessa humanförhöjda interaktioner risken för att maskinen kommer att dra en felaktig slutsats på grund av över gissning.

Samla bilder med ImageQuilts

ImageQuilts är en Chrome-förlängning som delvis utvecklats av den legendariska Edward Tufte, en av de första stora pionjärerna inom datavisualisering - han populariserade användningen av data-till- bläckförhållande för att bedöma effektiviteten av diagram.

Uppgiften ImageQuilts utför är bedrägligt enkel att beskriva men mycket komplex att implementera. ImageQuilts gör collages av tiotals bilder och delar dem alla tillsammans i ett "quilt" som består av flera rader med samma höjd. Denna uppgift kan vara komplex eftersom källbilderna nästan aldrig är lika stora. ImageQuilts skrapar och ändrar bilderna innan de sätts ihop i en utmatningsbild.

Den visade bildduken härleddes från en Google-sökning med etikett för återanvändning av termen

data science . ImageQuilts tillåter dig även att välja bildordning eller att randomisera dem. Du kan använda verktyget för att dra och släppa någon bild till vilken plats som helst, ta bort en bild, zooma alla bilder samtidigt eller zooma varje bild individuellt.

Du kan även använda verktyget för att dölja mellan bildfärger - från färg till gråskala eller inverterad färg (vilket är praktiskt för att skapa kontaktblad med negativ, om du är en av de sällsynta personer som fortfarande behandlar analog fotografi).

Wrangling data med DataWrangler

DataWrangler är ett onlineverktyg som stöds av University of Washington Interactive Data Lab (då DataWrangler utvecklades, kallades denna grupp för Stanford Visualization Group). Samma grupp utvecklade Lyra, en interaktiv datavisualiseringsmiljö som du kan använda för att skapa komplexa visualiseringar utan programmeringserfarenhet.

Om ditt mål är att

sculpt ditt dataset - eller städa upp saker genom att flytta saker som en skulptör skulle (dela den här delen i två, skära av den och flytta den där borta, tryck ner den här så att allt under det blir skiftat till höger, och så vidare) - DataWrangler är verktyget för dig. Du kan göra manipuleringar med DataWrangler liknande det du kan göra i Excel med Visual Basic. Du kan till exempel använda DataWrangler eller Excel med Visual Basic för att kopiera, klistra in och formatera information från listor på Internet.

DataWrangler föreslår även åtgärder baserade på ditt dataset och kan repetera komplexa åtgärder över hela dataset - åtgärder som att eliminera hoppade rader, dela upp data från en kolumn till två eller ändra en rubrik i kolumndata. DataWrangler kan också visa var din dataset saknar data.

Saknade data kan indikera ett formateringsfel som behöver rengöras.

Skrapning, insamling och hantering av datavetenskapsverktyg - dummies

Redaktörens val

Hur man lägger till text i en sätter () Funktion i C Programmering

Hur man lägger till text i en sätter () Funktion i C Programmering

När du behöver visa en annan textrad, använd C-programmeringsfärdigheterna för att skapa en annan puts () -funktion i källkoden, som visas i Visa två textlinjer. VISA TILL TEXTFINER # inkludera int main () {sätter ("Hickory, Dickory, Dock,"); sätter ("musen sprang klockan."); returnera (0);} Den andra ...

Förklarar variabler i C-dummies

Förklarar variabler i C-dummies

Variabler är det som gör dina program zooma. Programmering kan bara inte bli gjort utan dem. Så om du inte har introducerats till variabler än, här går du. Valerie Variable är en numerisk variabel. Hon älskar att hålla nummer - vilket nummer som helst; det spelar ingen roll. När hon ser ett lika tecken tar hon ett värde och ...

Redaktörens val

Gör rädsla för din vän - dummies

Gör rädsla för din vän - dummies

Rädsla är lika verklig som mod. Även om värdet av rädsla inte är lika uppenbart som modets värde, har det dess fördelar. Rädsla är din instinkt som säger att du är obehaglig - även om situationen inte kommer att skada dig. Alla har haft den känslan när man hellre drar locket ...

Hur man ökar din självmedvetenhet - dummies

Hur man ökar din självmedvetenhet - dummies

Du kommer att vara med dig själv under en livstid. Ingenting kommer att förändra det faktum. Att lära känna, som att lyssna på och uppskatta själv är avgörande för din sanity. Kanske kommer du till att älska, acceptera och omfamna alla du är, är svår för dig att föreställa dig just nu, men du kan göra ...

Hur man ökar din mentala flexibilitet - dummies

Hur man ökar din mentala flexibilitet - dummies

ÄR flexibel i arbete och relationer är ett tecken på en högpresterande. Medan perfektionister är styva och obehagliga i sitt arbete och hur de interagerar med andra, är högpresterande mer öppna och tillmötesgående. Att vara mer flexibel på jobbet gav Ralph aldrig förslag under brainstorming vid gruppmöten. Han kände att hans lag ...

Redaktörens val

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Linux är i sig ett kommandoradsorienterat operativsystem. Grafiska användargränssnitt - inklusive installationsprogrammets GUI - tillhandahålls av en valfri komponent som heter X Window System. Men medan du arbetar med det grafiska användargränssnittet för installationsprogrammet, håller Linux flera ytterligare kommandorads-konsoler öppna. Normalt behöver du inte ...

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Alla användare som åtkomst ett Linux-system, lokalt eller över ett nätverk, måste verifieras av ett giltigt användarkonto på systemet. I det följande får du veta hur du loggar in och ut på ett Linux-system och hur du stänger av systemet. Logga in När Linux startar upp visas det ...

Nätverksadministration: Licensserver - Dummies

Nätverksadministration: Licensserver - Dummies

I vissa program kan du köpa nätverkslicenser som gör att du kan installera programvaran på många datorer som du vill, men reglera antalet personer som kan använda programvaran vid en viss tidpunkt. För att styra hur många som använder programvaran, är en särskild licensserver inrättad. När en användare börjar ...