Bedrägeri Detektion med Hadoop - dummies

Den stora volymen av transaktioner gör det svårare att upptäcka bedrägerier på grund av datamängden, ironiskt nog kan samma utmaning bidra till att skapa bättre bedrägeribekämpande modeller - ett område där Hadoop lyser.

I dagens sammanlänkade värld gör den stora volymen och komplexiteten av transaktioner det svårare än någonsin att hitta bedrägeri. Det som brukade kallas "att hitta en nål i en höstack" har blivit uppgiften att "hitta en viss nål i staplar av nålar. ”

Traditionella metoder för att förebygga bedrägerier är inte särskilt effektiva. Till exempel hanteras hanteringen av felaktiga betalningar ofta av analytiker som granskar det som uppgår till ett mycket litet urval av fordringar i kombination med att begära medicinsk dokumentation från riktade sändare. Branschperioden för denna modell är lön och jakt: Fordringar accepteras och betalas ut och processer söker efter avsiktliga eller oavsiktliga överbetalningar genom betalning efter betalning av dessa krav.

Så hur går det att upptäcka bedrägerier nu? På grund av begränsningarna i traditionell teknik byggs bedrägeribekämpning genom att samplera data och använda provet för att bygga en uppsättning modeller för bedrägeribekämpning och -detektering. När du kontrasterar denna modell med en Hadoop-förankrad bedrägeribekämpning som använder hela datamängden - ingen provtagning - för att bygga ut modellerna, kan du se skillnaden.

Det vanligaste återkommande temat du ser på de flesta Hadoop-användarfall är att det hjälper till att bryta igenom glasstaket på volymen och olika data som kan införlivas i beslutsanalys. Ju mer data du har (och ju mer historia du lagrar) desto bättre kan dina modeller vara.

Blanda icke-traditionella dataformer med din uppsättning historiska transaktioner kan göra dina bedrägeribete modeller ännu mer robusta. Om en arbetstagare till exempel gör en arbetstagares ersättningskrav för en dålig rygg från en fall-och-fall-händelse, har en pool av miljontals patientfallssaker som detaljerar behandling och längd av återhämtning hjälper till att skapa ett upptäcktsmönster för bedrägerier.

Som ett exempel på hur denna modell kan fungera kan du föreställa dig att du ska ta reda på om patienter i landsbygdsområden återhämtar sig långsammare än dem i stadsområden. Du kan börja med att undersöka närheten till sjukgymnastik. Finns det ett mönsterförhållande mellan återhämtningstider och geografiskt läge?

Om din bedrägeribekämpning bestämmer att en viss skada tar tre veckors återhämtning men att en jordbrukare med samma diagnos lever en timme från en sjukgymnast och kontorsarbetaren har en utövare på sitt kontor, det är en annan variabel för att lägga till bedrägerierna -detektionsmönster.

När du skördar sociala nätverksdata för sökande och hittar en patient som hävdar att han lider av whiplash pratar om att slutföra den tuffa serien av uthållighetshändelser som kallas Tough Mudder, är det ett exempel på att blanda nya typer av data med traditionella dataskärmar att upptäcka bedrägerier.

Om du vill sparka dina bedrägeribekämpningsinsatser till ett högre växel kan din organisation arbeta för att flytta sig från modellering av marknadssegment och flytta sig mot transaktioner eller på personnivåmodellering.

Det är enkelt att göra en prognos utifrån ett segment, men det är (självklart) bättre att göra ett beslut baserat på viss information om en enskild transaktion. För att göra detta arbetar du upp en större uppsättning data än vad som konventionellt är möjligt i det traditionella tillvägagångssättet. Endast (högst) 30 procent av tillgänglig information som kan vara användbar för bedrägeri modellering används.

För att skapa bedrägeribekämpningsmodeller är Hadoop väl lämpad för

Hantera volymen: Det betyder att bearbeta hela datasatsen - ingen datasampling.
Hantera nya varianter av data: Exempel är inkludering av närhetstjänster och sociala kretsar för att dekorera bedrägerimodellen.
Behåll en smidig miljö: Aktivera olika typer av analyser och ändringar i befintliga modeller.

Bedrägerimodeller kan lägga till och testa nya variabler till modellen utan att behöva göra ett förslag till ditt databasadministratörsteam och vänta sedan några veckor för att godkänna en schemabyte och placera den i sin miljö.

Denna process är kritisk för bedrägeribekämpning eftersom dynamiska miljöer vanligtvis har cykliska bedrägerier som kommer och går i timmar, dagar eller veckor. Om de data som används för att identifiera eller stärka nya bedrägeringsdetekteringsmodeller inte är tillgängliga för tillfället, när du upptäcker dessa nya mönster kan det vara för sent för att förhindra skador.

Utvärdera fördelen för ditt företag att inte bara bygga ut mer omfattande modeller med fler typer av data utan också kunna uppdatera och förbättra dessa modeller snabbare än någonsin. Företaget som kan uppdatera och förbättra modellerna dagligen kommer att gå bättre än de som gör det kvartalsvis.

Du kanske tror att detta problem har ett enkelt svar - fråga din CIO för operativa utgifter (OPEX) och kapitalutgifter (CAPEX) godkännanden för att tillgodose mer data för att skapa bättre modeller och ladda de övriga 70 procenten av data till din beslutsmodeller.

Du kan till och med tro att investeringen kommer att betala sig med bättre bedrägeri upptäckt; Problemet med detta tillvägagångssätt är dock de höga kostnaderna som måste sänkas till okänd data, där du inte vet om den innehåller någon verkligt värdefull insikt.

Visst, tripplar storleken på ditt datalager, till exempel, ger dig mer tillgång till strukturerad historisk data för att finjustera dina modeller, men de kan inte rymma sociala medier. Traditionell teknik är inte lika flexibel. Hadoop gör det enkelt att introducera nya variabler i modellen, och om de visar sig inte ge förbättringar till modellen, kan du helt enkelt kasta bort data och fortsätta.