Hem Personliga finanser Text Analytics för ostrukturerad stor data - dummies

Text Analytics för ostrukturerad stor data - dummies

Video: Semistrukturerad intervju, kvalitativ metod, renskriva/transkribera, intervjuguide/-mall 2024

Video: Semistrukturerad intervju, kvalitativ metod, renskriva/transkribera, intervjuguide/-mall 2024
Anonim

Det finns många metoder för att analysera ostrukturerad data för ditt stora datainitiativ. Historiskt kom dessa tekniker ut av tekniska områden som NLP (Natural Language Processing), kunskapsupptäckt, datautvinning, informationshämtning och statistik. Textanalys är processen att analysera ostrukturerad text, extrahera relevant information och omvandla den till strukturerad information som sedan kan hanteras på olika sätt.

Analys- och extraktionsprocesserna utnyttjar tekniker som härstammar i beräkningslingvistik, statistik och andra datavetenskapsdiscipliner.

Ibland kan ett exempel hjälpa till att förklara ett komplext ämne. Antag att du arbetar för marknadsavdelningen i ett trådlöst telefonföretag. Du har just lanserat två nya anropsplaner - Planera A och Planera B - och du får inte det upptag du önskade på Plan A. Den ostrukturerade texten från anropscentralerna kan ge dig en inblick i varför detta hände.

De understrukna orden innehåller informationen du kanske behöver för att förstå varför Plan A inte får snabbt antagande. Enheten Plan A visas till exempel i samtalscentralerna, vilket indikerar att rapporterna nämner planen.

Villkoren övergångsminuter, 4GB data, dataplan, och dyra är bevis på att det finns ett problem med överlåtningsminuter, dataplanen och priset. Ord som löjligt och dumma ger insikt i uppringarens känsla, vilket i detta fall är negativt.

Textanalysprocessen använder olika algoritmer, till exempel förståelse av meningsstrukturen, att analysera den ostrukturerade texten och sedan extrahera information och omvandla den informationen till strukturerad data. De strukturerade data som extraheras från den ostrukturerade texten illustreras i tabell 13-1.

Identifier Enhet Utgåva Sentiment
Cust XYZ Plan A Roll-over minuter Neutral
Cust ABC Plan A Omrullningsminuter Negativ
XXXX Plan A Dyrt Neutral
XXXX Plan A Dataplan Neutral
Cust XYT > Planera A Dataplan Negativ Du kan titta på detta och säga, "Men jag kunde ha räknat ut det genom att titta på callcenter-posterna. "Men det här är bara en liten delmängd av informationen som registreras av tusentals call center-agenter. Varje enskild agent kan inte möjliggöra en bred trend när det gäller problemet med varje plan som erbjuds av företaget.

Agenter har inte tid eller krav att dela denna information över alla andra callcenteragenter som kanske får liknande antal samtal om Plan A. Men efter att denna information aggregeras och bearbetas med hjälp av textanalysalgoritmer, är en trend kan uppstå ur denna ostrukturerade data. Det är det som gör textanalyser så kraftfulla.

Sökningen handlar om att hämta ett dokument baserat på vilka slutanvändare som redan vet att de letar efter. Textanalys handlar om att upptäcka information. Även om textanalys skiljer sig från sökningen kan det öka sökteknikerna. Exempelvis kan textanalyser kombinerat med sökningen användas för att ge bättre kategorisering eller klassificering av dokument och att skapa abstrakter eller sammanfattningar av dokument.

Det finns fyra teknologier: fråga, datautvinning, sökning och textanalys. På vänster sida av bordet är frågan och sökningen, som både handlar om hämtning. En slutanvändare kan till exempel fråga efter en databas för att ta reda på hur många kunder som slutade använda företagets tjänster under den senaste månaden.

Frågan skulle returnera ett enda nummer. Endast genom att fråga fler och olika frågor kommer slutanvändaren att få den information som krävs för att avgöra varför kunderna lämnar. På samma sätt tillåter sökordsökningen slutanvändaren att hitta de dokument som innehåller namnen på ett företags konkurrenter. Sökningen skulle returnera en grupp dokument. Endast genom att läsa dokumenten skulle slutanvändaren komma med några relevanta svar.

Hämtning

Text Analytics för ostrukturerad stor data - dummies

Redaktörens val

Hur man lägger till text i en sätter () Funktion i C Programmering

Hur man lägger till text i en sätter () Funktion i C Programmering

När du behöver visa en annan textrad, använd C-programmeringsfärdigheterna för att skapa en annan puts () -funktion i källkoden, som visas i Visa två textlinjer. VISA TILL TEXTFINER # inkludera int main () {sätter ("Hickory, Dickory, Dock,"); sätter ("musen sprang klockan."); returnera (0);} Den andra ...

Förklarar variabler i C-dummies

Förklarar variabler i C-dummies

Variabler är det som gör dina program zooma. Programmering kan bara inte bli gjort utan dem. Så om du inte har introducerats till variabler än, här går du. Valerie Variable är en numerisk variabel. Hon älskar att hålla nummer - vilket nummer som helst; det spelar ingen roll. När hon ser ett lika tecken tar hon ett värde och ...

Redaktörens val

Gör rädsla för din vän - dummies

Gör rädsla för din vän - dummies

Rädsla är lika verklig som mod. Även om värdet av rädsla inte är lika uppenbart som modets värde, har det dess fördelar. Rädsla är din instinkt som säger att du är obehaglig - även om situationen inte kommer att skada dig. Alla har haft den känslan när man hellre drar locket ...

Hur man ökar din självmedvetenhet - dummies

Hur man ökar din självmedvetenhet - dummies

Du kommer att vara med dig själv under en livstid. Ingenting kommer att förändra det faktum. Att lära känna, som att lyssna på och uppskatta själv är avgörande för din sanity. Kanske kommer du till att älska, acceptera och omfamna alla du är, är svår för dig att föreställa dig just nu, men du kan göra ...

Hur man ökar din mentala flexibilitet - dummies

Hur man ökar din mentala flexibilitet - dummies

ÄR flexibel i arbete och relationer är ett tecken på en högpresterande. Medan perfektionister är styva och obehagliga i sitt arbete och hur de interagerar med andra, är högpresterande mer öppna och tillmötesgående. Att vara mer flexibel på jobbet gav Ralph aldrig förslag under brainstorming vid gruppmöten. Han kände att hans lag ...

Redaktörens val

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Nätverksadministration: Linux-installation och virtuella konsoler - dummies

Linux är i sig ett kommandoradsorienterat operativsystem. Grafiska användargränssnitt - inklusive installationsprogrammets GUI - tillhandahålls av en valfri komponent som heter X Window System. Men medan du arbetar med det grafiska användargränssnittet för installationsprogrammet, håller Linux flera ytterligare kommandorads-konsoler öppna. Normalt behöver du inte ...

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Nätverksadministration: Linux-loggning, logg och systemavstängning - dummies

Alla användare som åtkomst ett Linux-system, lokalt eller över ett nätverk, måste verifieras av ett giltigt användarkonto på systemet. I det följande får du veta hur du loggar in och ut på ett Linux-system och hur du stänger av systemet. Logga in När Linux startar upp visas det ...

Nätverksadministration: Licensserver - Dummies

Nätverksadministration: Licensserver - Dummies

I vissa program kan du köpa nätverkslicenser som gör att du kan installera programvaran på många datorer som du vill, men reglera antalet personer som kan använda programvaran vid en viss tidpunkt. För att styra hur många som använder programvaran, är en särskild licensserver inrättad. När en användare börjar ...

Insikt Strukturerad
Fråga: Returerar data Datautvinning: Insikt från strukturerad data Ostrukturerad
Sök: Returnerar dokument Textanalys: Insikt från text < Tekniken till vänster returnerar informationsstycken och kräver mänsklig interaktion för att syntetisera och analysera den informationen. Tekniken till höger - data mining och textanalys - ger insikt mycket snabbare. Förhoppningsvis blir värdet av textanalys till din organisation klart.