Data mining vs Data Warehousing
Data Mining och Data Warehousing är både mycket kraftfulla och populära tekniker för att analysera data. Användare som är benägna till statistik använder Data Mining. De använder statistiska modeller för att leta efter dolda mönster i data. Dataminers är intresserade av att hitta användbara relationer mellan olika dataelement, vilket i slutändan är lönsamt för företag. Men å andra sidan tenderar dataexperter som kan analysera dimensioner av verksamheten direkt att använda datalager.
Datautvinning är också känt som Knowledge Discovery in data (KDD). Som nämnts ovan är det ett område inom datavetenskap, som handlar om utvinning av tidigare okänd och intressant information från rådata. På grund av den exponentiella tillväxten av data, särskilt inom områden som företag, har datautvinning blivit ett mycket viktigt verktyg för att omvandla denna stora mängd data till business intelligence, eftersom manuell extrahering av mönster har blivit till synes omöjlig under de senaste decennierna. Till exempel används den för närvarande för olika applikationer som analys av sociala nätverk, upptäckt av bedrägerier och marknadsföring. Data mining handlar vanligtvis om följande fyra uppgifter: klustring, klassificering, regression och association. Klustring är att identifiera liknande grupper från ostrukturerad data. Klassificering är inlärningsregler som kan tillämpas på ny data och kommer vanligtvis att innefatta följande steg: förbearbetning av data, design av modellering, inlärning/funktionsval och utvärdering/validering. Regression är att hitta funktioner med minim alt fel för att modellera data. Och association letar efter samband mellan variabler. Datautvinning används vanligtvis för att besvara frågor som vilka är de viktigaste produkterna som kan hjälpa till att få hög vinst nästa år i Wal-Mart?
Som nämnts ovan används Data warehousing också för att analysera data, men av olika uppsättningar användare och ett något annat mål i åtanke. När det till exempel kommer till detaljhandeln är datalageranvändare mer bekymrade över vilka typer av köp som är populära bland kunderna, så resultaten av analysen kan hjälpa kunden genom att förbättra kundupplevelsen. Men Dataminers gissar först en hypotes som vilka kunder som köper en viss typ av produkt och analyserar data för att testa hypotesen. Datalager skulle kunna utföras av en stor återförsäljare som till en början lagerför sina butiker med samma storlek på produkter för att senare få reda på att New York-butiker säljer mindre lager mycket snabbare än i Chicago-butiker. Så genom att titta på detta resultat kan återförsäljaren lagerhålla New York-butiken med mindre storlekar jämfört med Chicago-butiker.
Så, som du tydligt kan se, verkar dessa två typer av analyser vara av samma karaktär för blotta ögat. Båda oroar sig för ökad vinst baserat på historiska data. Men naturligtvis finns det viktiga skillnader. Enkelt uttryckt är Data Mining och Data Warehousing dedikerade till att tillhandahålla olika typer av analyser, men definitivt för olika typer av användare. Med andra ord, Data Mining letar efter korrelationer, mönster för att stödja en statistisk hypotes. Men Data Warehousing svarar på en jämförelsevis bredare fråga och delar upp data därifrån och framåt för att identifiera sätt att förbättra i framtiden.