Skillnaden mellan KDD och datautvinning

Skillnaden mellan KDD och datautvinning
Skillnaden mellan KDD och datautvinning

Video: Skillnaden mellan KDD och datautvinning

Video: Skillnaden mellan KDD och datautvinning
Video: Difference between Capital Structure and Financial Structure 2024, Juli
Anonim

KDD vs Data mining

KDD (Knowledge Discovery in Databases) är ett område inom datavetenskap, som inkluderar verktyg och teorier för att hjälpa människor att extrahera användbar och tidigare okänd information (d.v.s. kunskap) från stora samlingar av digitaliserad data. KDD består av flera steg, och Data Mining är ett av dem. Data Mining är tillämpning av en specifik algoritm för att extrahera mönster från data. Icke desto mindre används KDD och Data Mining omväxlande.

Vad är KDD?

Som nämnts ovan är KDD ett område inom datavetenskap, som handlar om utvinning av tidigare okänd och intressant information från rådata. KDD är hela processen att försöka förstå data genom att utveckla lämpliga metoder eller tekniker. Denna process handlar om kartläggning av lågnivådata till andra former som är mer kompakta, abstrakta och användbara. Detta uppnås genom att skapa korta rapporter, modellera processen för att generera data och utveckla prediktiva modeller som kan förutsäga framtida fall. På grund av den exponentiella tillväxten av data, särskilt inom områden som företag, har KDD blivit en mycket viktig process för att omvandla denna stora mängd data till business intelligence, eftersom manuell extrahering av mönster har blivit till synes omöjlig under de senaste decennierna. Till exempel används den för närvarande för olika applikationer som sociala nätverksanalyser, bedrägeriupptäckt, vetenskap, investeringar, tillverkning, telekommunikation, datarensning, sport, informationssökning och till stor del för marknadsföring. KDD används vanligtvis för att svara på frågor som vilka är de viktigaste produkterna som kan hjälpa till att få hög vinst nästa år i Wal-Mart?. Denna process har flera steg. Det börjar med att utveckla en förståelse för applikationsdomänen och målet och sedan skapa en måldatauppsättning. Detta följs av rengöring, förbearbetning, reduktion och projicering av data. Nästa steg är att använda Data Mining (förklaras nedan) för att identifiera mönster. Slutligen konsolideras upptäckt kunskap genom visualisering och/eller tolkning.

Vad är Data Mining?

Som nämnts ovan är Data Mining bara ett steg i den övergripande KDD-processen. Det finns två stora Data Mining-mål som definieras av programmets mål, och de är nämligen verifiering eller upptäckt. Verifiering är att verifiera användarens hypotes om data, medan upptäckt automatiskt hittar intressanta mönster. Det finns fyra huvuduppgifter för datautvinning: klustring, klassificering, regression och association (sammanfattning). Klustring är att identifiera liknande grupper från ostrukturerad data. Klassificering är inlärningsregler som kan tillämpas på ny data. Regression är att hitta funktioner med minim alt fel för att modellera data. Och association letar efter samband mellan variabler. Sedan måste den specifika datautvinningsalgoritmen väljas. Beroende på målet kan olika algoritmer som linjär regression, logistisk regression, beslutsträd och Naiva Bayes väljas. Därefter genomsöks mönster av intresse i en eller flera representationsformer. Slutligen utvärderas modellerna antingen med hjälp av prediktiv noggrannhet eller förståelse.

Vad är skillnaden mellan KDD och Data mining?

Även om de två termerna KDD och Data Mining används ofta omväxlande, hänvisar de till två relaterade men lite olika begrepp. KDD är den övergripande processen att extrahera kunskap från data medan Data Mining är ett steg i KDD-processen, som handlar om att identifiera mönster i data. Med andra ord är Data Mining endast tillämpningen av en specifik algoritm baserad på det övergripande målet för KDD-processen.

Rekommenderad: