Datamining teen datapakhuis
Data-ontginning en datapakhuis is beide baie kragtige en gewilde tegnieke vir die ontleding van data. Gebruikers wat geneig is tot statistiek, gebruik Data Mining. Hulle gebruik statistiese modelle om na verborge patrone in data te soek. Data-ontginners stel daarin belang om nuttige verhoudings tussen verskillende data-elemente te vind, wat uiteindelik winsgewend vir besighede is. Maar aan die ander kant is datakundiges wat dimensies van die besigheid direk kan ontleed, geneig om Datapakhuise te gebruik.
Data-ontginning staan ook bekend as Knowledge Discovery in data (KDD). Soos hierbo genoem, is dit 'n veld van rekenaarwetenskap, wat handel oor die onttrekking van voorheen onbekende en interessante inligting uit rou data. As gevolg van die eksponensiële groei van data, veral in gebiede soos besigheid, het data-ontginning 'n baie belangrike hulpmiddel geword om hierdie groot rykdom data na besigheidsintelligensie om te skakel, aangesien handmatige onttrekking van patrone in die afgelope paar dekades oënskynlik onmoontlik geword het. Dit word byvoorbeeld tans gebruik vir verskeie toepassings soos sosiale netwerk-analise, bedrogopsporing en bemarking. Data-ontginning handel gewoonlik oor die volgende vier take: groepering, klassifikasie, regressie en assosiasie. Groepering is om soortgelyke groepe uit ongestruktureerde data te identifiseer. Klassifikasie is leerreëls wat op nuwe data toegepas kan word en sal tipies die volgende stappe insluit: voorafverwerking van data, ontwerp van modellering, leer/kenmerkseleksie en Evaluering/validering. Regressie is die vind van funksies met minimale foute om data te modelleer. En assosiasie soek na verwantskappe tussen veranderlikes. Data-ontginning word gewoonlik gebruik om vrae te beantwoord soos wat die hoofprodukte is wat kan help om volgende jaar hoë wins in Wal-Mart te behaal?
Soos hierbo genoem, word datapakhuise ook gebruik vir die ontleding van data, maar deur verskillende stelle gebruikers en 'n effens ander doel voor oë. Byvoorbeeld, wanneer dit by die kleinhandelsektor kom, is datapakhuisgebruikers meer besorg oor watter soort aankope gewild is onder klante, so die resultate van die ontleding kan die kliënt help deur die kliëntervaring te verbeter. Maar data-myners vermoed eers 'n hipotese soos watter kliënte 'n sekere tipe produk koop en analiseer die data om die hipotese te toets. Datapakhuise kan uitgevoer word deur 'n groot kleinhandelaar wat aanvanklik sy winkels met dieselfde groottes produkte in voorraad hou om later uit te vind dat New York-winkels kleiner grootte voorraad baie vinniger verkoop as in Chicago-winkels. Dus, deur na hierdie resultaat te kyk, kan die kleinhandelaar die New York-winkel met kleiner groottes in vergelyking met Chicago-winkels in voorraad hê.
So, soos jy duidelik kan sien, blyk hierdie twee tipes ontledings met die blote oog van dieselfde aard te wees. Albei is bekommerd oor die verhoging van winste op grond van die historiese data. Maar daar is natuurlik belangrike verskille. In eenvoudige terme, is Data Mining en Data Warhousing toegewy aan die verskaffing van verskillende tipes analise, maar beslis vir verskillende tipes gebruikers. Met ander woorde, Data Mining soek korrelasies, patrone om 'n statistiese hipotese te ondersteun. Maar, Data Warehousing beantwoord 'n betreklik breër vraag en dit sny data van daar af en verder op om maniere van verbetering in die toekoms te herken.