KDD vs data-ontginning
KDD (Knowledge Discovery in Databases) is 'n veld van rekenaarwetenskap, wat die gereedskap en teorieë insluit om mense te help om nuttige en voorheen onbekende inligting (d.w.s. kennis) uit groot versamelings van gedigitaliseerde data te onttrek. KDD bestaan uit verskeie stappe, en Data Mining is een van hulle. Data-ontginning is die toepassing van 'n spesifieke algoritme om patrone uit data te onttrek. Nietemin, KDD en Data Mining word uitruilbaar gebruik.
Wat is KDD?
Soos hierbo genoem, is KDD 'n veld van rekenaarwetenskap, wat handel oor die onttrekking van voorheen onbekende en interessante inligting uit rou data. KDD is die hele proses om sin uit data te probeer maak deur toepaslike metodes of tegnieke te ontwikkel. Hierdie proses handel oor die kartering van lae-vlak data in ander vorme wat meer kompak, abstrak en bruikbaar is. Dit word bereik deur kort verslae te skep, die proses van generering van data te modelleer en voorspellende modelle te ontwikkel wat toekomstige gevalle kan voorspel. As gevolg van die eksponensiële groei van data, veral in gebiede soos besigheid, het KDD 'n baie belangrike proses geword om hierdie groot rykdom data na besigheidsintelligensie om te skakel, aangesien handmatige onttrekking van patrone in die afgelope paar dekades oënskynlik onmoontlik geword het. Dit word byvoorbeeld tans gebruik vir verskeie toepassings soos sosiale netwerkanalise, bedrogopsporing, wetenskap, belegging, vervaardiging, telekommunikasie, dataskoonmaak, sport, inligtingherwinning en grootliks vir bemarking. KDD word gewoonlik gebruik om vrae te beantwoord soos wat is die hoofprodukte wat kan help om volgende jaar hoë wins in Wal-Mart te behaal?. Hierdie proses het verskeie stappe. Dit begin met die ontwikkeling van 'n begrip van die toepassingsdomein en die doelwit en die skep van 'n teikendatastel. Dit word gevolg deur skoonmaak, voorverwerking, vermindering en projeksie van data. Volgende stap is die gebruik van Data Mining (hieronder verduidelik) om patroon te identifiseer. Laastens word ontdekte kennis gekonsolideer deur visualisering en/of interpretasie.
Wat is data-ontginning?
Soos hierbo genoem, is Data Mining slegs 'n stap binne die algehele KDD-proses. Daar is twee groot Data Mining-doelwitte soos gedefinieer deur die doel van die toepassing, en dit is naamlik verifikasie of ontdekking. Verifikasie is om die gebruiker se hipotese oor data te verifieer, terwyl ontdekking outomaties interessante patrone vind. Daar is vier groot data-ontginningstake: groepering, klassifikasie, regressie en assosiasie (opsomming). Groepering is om soortgelyke groepe uit ongestruktureerde data te identifiseer. Klassifikasie is leerreëls wat op nuwe data toegepas kan word. Regressie is die vind van funksies met minimale foute om data te modelleer. En assosiasie soek na verwantskappe tussen veranderlikes. Dan moet die spesifieke data-ontginningsalgoritme gekies word. Afhangende van die doelwit, kan verskillende algoritmes soos lineêre regressie, logistiese regressie, besluitnemingsbome en Naïewe Bayes gekies word. Dan word patrone van belangstelling in een of meer voorstellingsvorme gesoek. Laastens word modelle geëvalueer deur óf voorspellende akkuraatheid óf verstaanbaarheid te gebruik.
Wat is die verskil tussen KDD en data-ontginning?
Alhoewel die twee terme KDD en Data Mining baie uitruilbaar gebruik word, verwys hulle na twee verwante dog effens verskillende konsepte. KDD is die algehele proses om kennis uit data te onttrek, terwyl Data Mining 'n stap binne die KDD-proses is, wat handel oor die identifisering van patrone in data. Met ander woorde, Data Mining is slegs die toepassing van 'n spesifieke algoritme gebaseer op die algehele doel van die KDD-proses.