Hierarkisk kontra partiell klustring
Clustering är en maskininlärningsteknik för att analysera data och dela in i grupper av liknande data. Dessa grupper eller uppsättningar av liknande data kallas kluster. Klusteranalys tittar på klusteralgoritmer som kan identifiera kluster automatiskt. Hierarkisk och partiell är två sådana klasser av klustringsalgoritmer. Hierarkiska klustringsalgoritmer delar upp data i en hierarki av kluster. Paritionella algoritmer delar upp datamängden i ömsesidigt disjunkta partitioner.
Vad är hierarkisk klustering?
Hierarkiska klusteralgoritmer upprepar cykeln att antingen slå samman mindre kluster till större eller dela större kluster till mindre. Oavsett vilket, det producerar en hierarki av kluster som kallas dendogram. Agglomerativ klustringsstrategi använder nedifrån-och-upp-metoden att slå samman kluster till större, medan splittande klustringsstrategi använder top-down-metoden att dela upp i mindre. Vanligtvis används det giriga tillvägagångssättet för att avgöra vilka större/mindre kluster som används för att slå samman/delning. Euklidiskt avstånd, Manhattan-avstånd och cosinuslikhet är några av de mest använda måtten för likhet för numeriska data. För icke-numeriska data används mått som Hamming-avståndet. Det är viktigt att notera att de faktiska observationerna (instanserna) inte behövs för hierarkisk klustring, eftersom endast matrisen av avstånd är tillräcklig. Dendogram är en visuell representation av klustren, som visar hierarkin mycket tydligt. Användaren kan erhålla olika kluster beroende på vilken nivå dendogrammet skärs ut.
Vad är partiell klustring?
Partitionella klustringsalgoritmer genererar olika partitioner och utvärderar dem sedan enligt något kriterium. De kallas också icke-hierarkiska eftersom varje instans är placerad i exakt ett av k ömsesidigt exklusiva kluster. Eftersom endast en uppsättning kluster är resultatet av en typisk partitionell klusteralgoritm, måste användaren mata in det önskade antalet kluster (vanligtvis kallat k). En av de mest använda partitionella klustringsalgoritmerna är k-means klustringsalgoritmen. Användaren måste ange antalet kluster (k) innan start och algoritmen initierar först mitten (eller tyngdpunkterna) för k-partitionerna. I ett nötskal tilldelar k-means klustringsalgoritm sedan medlemmar baserat på de aktuella centran och omskattar centra baserat på de nuvarande medlemmarna. Dessa två steg upprepas tills en viss intra-kluster likhetsobjektivfunktion och inter-kluster dissimilarity objektiv funktion är optimerade. Därför är en förnuftig initiering av centra en mycket viktig faktor för att erhålla kvalitetsresultat från partitionella klustringsalgoritmer.
Vad är skillnaden mellan hierarkisk och partiell klustering?
Hierarkisk och partiell klustring har viktiga skillnader i körtid, antaganden, inmatningsparametrar och resulterande kluster. Vanligtvis är partitionell klustring snabbare än hierarkisk klustring. Hierarkisk klustring kräver bara ett likhetsmått, medan partitionell klustring kräver starkare antaganden som antalet kluster och de initiala centran. Hierarkisk klustring kräver inga indataparametrar, medan partitionella klustringsalgoritmer kräver antalet kluster för att börja köras. Hierarkisk klustring ger en mycket mer meningsfull och subjektiv uppdelning av kluster men partitionell klustring resulterar i exakt k kluster. Hierarkiska klustringsalgoritmer är mer lämpade för kategoriska data så länge som ett likhetsmått kan definieras därefter.