Video: AWS Tutorial For Beginners | AWS Full Course - Learn AWS In 10 Hours | AWS Training | Edureka 2024
ETL-verktyg kombinerar tre viktiga funktioner (extrahera, transformera, ladda) som krävs för att få data från en stor datormiljö och sätta den in i en annan datamiljö. Traditionellt har ETL använts med satsvis bearbetning i datalagringsmiljöer. Datavarehus ger företagsanvändarna ett sätt att konsolidera information för att analysera och rapportera om data som är relevanta för deras affärsfokus. ETL-verktyg används för att omvandla data till det format som krävs av datalager.
Transformationen görs faktiskt i en mellanliggande plats innan data laddas i datalageret. Många programvaruleverantörer, inklusive IBM, Informatica, Pervasive, Talend och Pentaho, tillhandahåller ETL-programvaruverktyg.
ETL tillhandahåller den underliggande infrastrukturen för integration genom att utföra tre viktiga funktioner:
-
Utdrag: Läs data från källdatabasen.
-
Transform: Konvertera formatet för den extraherade data så att den överensstämmer med kraven i måldatabasen. Transformation görs genom att använda regler eller slå samman data med andra data.
-
Ladda: Skriv data till måldatabasen.
ETL utvecklas emellertid för att stödja integration över mycket mer än traditionella datalager. ETL kan stödja integration mellan transaktionssystem, operativdatabutiker, BI-plattformar, MDM-hubbar, molnet och Hadoop-plattformarna. ETL-programvaruförsäljare utvidgar sina lösningar för att ge stor datautvinning, transformation och laddning mellan Hadoop och traditionella datahanteringsplattformar.
ETL och mjukvaruverktyg för andra dataintegrationsprocesser som datautrensning, profilering och revision av allt arbete på olika aspekter av data för att säkerställa att uppgifterna anses trovärdiga. ETL-verktyg integreras med datakvalitetsverktyg, och många innehåller verktyg för datautrensning, datakartläggning och identifiering av datastamning. Med ETL extraherar du bara de data du behöver för integrationen.
ETL-verktyg behövs för laddning och konvertering av strukturerad och ostrukturerad data till Hadoop. Avancerade ETL-verktyg kan läsa och skriva flera filer parallellt från och till Hadoop för att förenkla hur data sammanfogas till en gemensam transformationsprocess. Vissa lösningar innehåller bibliotek av förbyggda ETL-transformationer för både transaktions- och interaktionsdata som körs på Hadoop eller en traditionell nätinfrastruktur.
Datatransformering är processen att ändra formatet på data så att det kan användas av olika applikationer.Detta kan innebära en förändring från det format som data lagras i i det format som behövs av den applikation som ska använda data. Denna process innehåller även mapping instruktioner så att applikationer får veta hur man får de data de behöver för att bearbeta.
Processdatatransformationen görs mycket mer komplex på grund av den svindlande tillväxten i mängden ostrukturerad data. En företagsapplikation, såsom en kundrelationshantering, har särskilda krav på hur data ska lagras. Uppgifterna är sannolikt strukturerade i de organiserade raderna och kolumnerna i en relationsdatabas. Data är halvstrukturerad eller ostrukturerad om den inte följer strikta formatkrav.
Informationen i ett e-postmeddelande anses exempelvis ostrukturerat. Några av företagets viktigaste uppgifter finns i ostrukturerade och halvstrukturerade former såsom dokument, e-postmeddelanden, komplexa meddelanden, kundsupport, transaktioner och information som kommer från paketprogram som ERP och CRM.
Datatransformationsverktyg är inte konstruerade för att fungera bra med ostrukturerad data. Som ett resultat har företag som behöver integrera ostrukturerad information i sitt beslutsprocess för affärsprocesser blivit utsatta för en betydande mängd manuell kodning för att åstadkomma den nödvändiga dataintegrationen.
Med tanke på tillväxten och betydelsen av ostrukturerad data för beslutsfattande, börjar ETL-lösningar från större leverantörer erbjuda standardiserade metoder för att transformera ostrukturerad data så att den lättare kan integreras med operativstrukturerad data.