Hierargiese vs Partisionele groepering
Klustering is 'n masjienleertegniek om data te analiseer en in groepe soortgelyke data te verdeel. Hierdie groepe of stelle soortgelyke data staan bekend as trosse. Trosanalise kyk na groeperingsalgoritmes wat trosse outomaties kan identifiseer. Hiërargies en Partisioneel is twee sulke klasse groeperingsalgoritmes. Hiërargiese groeperingsalgoritmes verdeel die data in 'n hiërargie van groeperings. Parisiealgoritmes verdeel die datastel in onderling onsamehangende partisies.
Wat is hiërargiese groepering?
Hierargiese groeperingsalgoritmes herhaal die siklus van óf die samesmelting van kleiner trosse in groteres óf die verdeling van groter trosse in kleineres. Hoe dit ook al sy, dit produseer 'n hiërargie van trosse wat 'n dendogram genoem word. Agglomeratiewe groeperingstrategie gebruik die onder-na-bo-benadering om trosse in groter saam te voeg, terwyl verdelende groeperingstrategie die bo-na-onder-benadering gebruik om in kleiner te verdeel. Tipies word die gulsige benadering gebruik om te besluit watter groter/kleiner trosse vir samesmelting/verdeling gebruik word. Euklidiese afstand, Manhattan-afstand en cosinus-ooreenkoms is van die mees gebruikte maatstawwe van ooreenkoms vir numeriese data. Vir nie-numeriese data word maatstawwe soos die Hamming-afstand gebruik. Dit is belangrik om daarop te let dat die werklike waarnemings (gevalle) nie nodig is vir hiërargiese groepering nie, want slegs die matriks van afstande is voldoende. Dendogram is 'n visuele voorstelling van die trosse, wat die hiërargie baie duidelik vertoon. Die gebruiker kan verskillende groepering verkry afhangende van die vlak waarop die dendogram gesny word.
Wat is partisionele groepering?
Partisionele groeperingsalgoritmes genereer verskeie partisies en evalueer dit dan volgens een of ander kriterium. Daar word ook na hulle verwys as nie-hiërargies aangesien elke instansie in presies een van k onderling uitsluitende groepe geplaas word. Omdat slegs een stel trosse die uitset van 'n tipiese partisionele groeperingsalgoritme is, moet die gebruiker die verlangde aantal trosse invoer (gewoonlik genoem k). Een van die mees gebruikte partisionele groeperingsalgoritmes is die k-beteken groeperingsalgoritme. Daar word van die gebruiker vereis om die aantal trosse (k) te verskaf voor begin en die algoritme begin eers die middelpunte (of sentroïede) van die k partisies. In 'n neutedop, k-beteken groeperingsalgoritme ken dan lede toe op grond van die huidige sentrums en herskat sentrums op grond van die huidige lede. Hierdie twee stappe word herhaal totdat 'n sekere intra-kluster-ooreenkoms-doelwitfunksie en inter-kluster-ongelykheiddoelwitfunksie geoptimaliseer is. Daarom is sinvolle inisialisering van sentrums 'n baie belangrike faktor om kwaliteit resultate van partisionele groeperingsalgoritmes te verkry.
Wat is die verskil tussen hiërargiese en partisionele groepering?
Hierargiese en partisionele groepering het sleutelverskille in looptyd, aannames, invoerparameters en gevolglike trosse. Gewoonlik is partisionele groepering vinniger as hiërargiese groepering. Hiërargiese groepering vereis slegs 'n ooreenkomsmaatstaf, terwyl partisionele groepering sterker aannames soos aantal trosse en die aanvanklike sentrums vereis. Hiërargiese groepering vereis geen invoerparameters nie, terwyl partisionele groeperingsalgoritmes die aantal groeperings vereis om te begin loop. Hiërargiese groepering gee 'n baie meer betekenisvolle en subjektiewe verdeling van trosse terug, maar partisionele groepering lei tot presies k trosse. Hiërargiese groeperingsalgoritmes is meer geskik vir kategoriese data solank 'n ooreenkomsmaatstaf dienooreenkomstig gedefinieer kan word.