Grunderna i K-Means och DBSCAN Clustering Modeller för Prediktiv Analytics - Dummies <[SET:descriptionsv]Oövervakad inlärning

Video: Introduction to Anatomy & Physiology: Crash Course A&P #1 2024

Oövervakad inlärning har många utmaningar för prediktiv analys - inklusive att inte veta vad som ska förväntas när du kör en algoritm. Varje algoritm kommer att ge olika resultat; du kommer aldrig vara säker på om ett resultat är bättre än det andra - eller om resultatet är av något värde.

När du vet vad resultaten ska vara, kan du finjustera algoritmerna för att producera de önskade resultaten. I verkliga dataset kommer du inte ha den här lyxen. Du måste vara beroende av viss förkunskap om data - eller intuition - för att bestämma vilka initialiseringsparametrar och algoritmer som ska användas när du skapar din modell.

I reella oövervakade inlärningsuppgifter är dock denna förkunskapskunskap otillgänglig och det önskade resultatet är svårt att hitta. Att välja rätt antal kluster är huvudproblemet. Om du råkar snubbla över rätt antal kluster kommer dina data att ge insikter som du kan göra mycket exakta förutsägelser. På baksidan kan gissning av fel antal klyftor ge resultat i övrigt.

K-medelalgoritmen är ett bra val för dataset som har ett litet antal kluster med proportionella storlekar och linjärt separerbara data - och du kan skala upp det för att använda algoritmen på mycket stora dataset.

Tänk på linjärt separerbar data som en massa punkter i ett diagram som kan separeras med en rak linje. Om data inte är linjärt separerbara, måste mer avancerade versioner av K-medel användas - vilket blir dyrare beräknat och kanske inte är lämpligt för mycket stora dataset. I sin standardimplementation är komplexiteten att beräkna klustercentra och avstånd låga.

K-means används i stor utsträckning för att lösa stordataproblem eftersom det är enkelt att använda, effektivt och mycket skalbart. Inte undra på att de flesta kommersiella leverantörerna använder K-means-algoritmen som en nyckelkomponent i sina prediktiva analyspaket.

Implementeringen av DBSCAN (Density-Based Spatial Clustering of Applications with Noise) i scikit-learning kräver ingen användardefinierade initialiseringsparametrar för att skapa en instans. Du kan åsidosätta standardparametrarna under initialisering om du vill. Tyvärr, om du använder standardparametrarna, kan algoritmen inte ge en nära matchning till det önskade resultatet.

DBSCAN passar bättre för dataset som har oproportionerliga klusterstorlekar, och vars data kan separeras på ett icke-linjärt sätt.Liksom K-betyder, är DBSCAN skalbar, men att använda det på mycket stora dataset kräver mer minne och datorkraft.