nyckelskillnad – övervakad vs oövervakad maskininlärning
Övervakat lärande och oövervakat lärande är två centrala begrepp för maskininlärning. Övervakad inlärning är en maskininlärningsuppgift för att lära sig en funktion som mappar en ingång till en utdata baserat på exemplet input-output-par. Oövervakad inlärning är uppgiften för maskininlärning att härleda en funktion för att beskriva dold struktur från omärkta data. Den viktigaste skillnaden mellan övervakad och oövervakad maskininlärning är att övervakad inlärning använder märkta data medan oövervakad inlärning använder omärkta data.
Machine Learning är ett område inom datavetenskap som ger ett datorsystem möjlighet att lära av data utan att vara explicit programmerad. Det gör det möjligt att analysera data och förutsäga mönster i den. Det finns många tillämpningar av maskininlärning. Några av dem är ansiktsigenkänning, gestigenkänning och taligenkänning. Det finns olika algoritmer relaterade till maskininlärning. Några av dem är regression, klassificering och klustring. De vanligaste programmeringsspråken för att utveckla maskininlärningsbaserade applikationer är R och Python. Andra språk som Java, C++ och Matlab kan också användas.
Vad är övervakat lärande?
I maskininlärningsbaserade system fungerar modellen enligt en algoritm. I handledat lärande handles modellen. Först krävs det att man tränar modellen. Med den inhämtade kunskapen kan den förutsäga svar för framtida instanser. Modellen tränas med hjälp av en märkt dataset. När en out of sample data ges till systemet, kan det förutsäga resultatet. Nedan följer ett litet utdrag från den populära IRIS-datauppsättningen.
Enligt tabellen ovan kallas foderbladslängd, foderbladsbredd, patelllängd, patellbredd och art attributen. Kolumnerna är kända som funktioner. En rad har data för alla attribut. Därför kallas en rad en observation. Uppgifterna kan antingen vara numeriska eller kategoriska. Modellen ges observationerna med motsvarande artnamn som indata. När en ny observation ges bör modellen förutsäga vilken typ av art den tillhör.
I övervakat lärande finns det algoritmer för klassificering och regression. Klassificering är processen för att klassificera de märkta uppgifterna. Modellen skapade gränser som skilde åt kategorierna av data. När ny data tillhandahålls till modellen kan den kategorisera baserat på var punkten finns. K-Närmaste Grannar (KNN) är en klassificeringsmodell. Beroende på k-värdet avgörs kategorin. Till exempel, när k är 5, om en viss datapunkt är nära åtta datapunkter i kategori A och sex datapunkter i kategori B, kommer datapunkten att klassificeras som A.
Regressionen är processen att förutsäga trenden för tidigare data för att förutsäga resultatet av den nya datan. Vid regression kan utdata bestå av en eller flera kontinuerliga variabler. Förutsägelse görs med hjälp av en linje som täcker de flesta datapunkter. Den enklaste regressionsmodellen är en linjär regression. Det är snabbt och kräver inga inställningsparametrar som i KNN. Om data visar en parabolisk trend är den linjära regressionsmodellen inte lämplig.
Det här är några exempel på övervakade inlärningsalgoritmer. Generellt sett är resultaten som genereras från övervakade inlärningsmetoder mer exakta och tillförlitliga eftersom indata är välkända och märkta. Därför måste maskinen bara analysera de dolda mönstren.
Vad är oövervakat lärande?
I oövervakat lärande är modellen inte övervakad. Modellen fungerar på egen hand för att förutsäga resultaten. Den använder maskininlärningsalgoritmer för att dra slutsatser om omärkta data. Generellt är de oövervakade inlärningsalgoritmerna svårare än övervakade inlärningsalgoritmer eftersom det finns lite information. Clustering är en typ av oövervakat lärande. Den kan användas för att gruppera okända data med hjälp av algoritmer. K-medelvärdet och densitetsbaserade klustringen är två klustringsalgoritmer.
k-medelalgoritm, placerar k centroid slumpmässigt för varje kluster. Sedan tilldelas varje datapunkt den närmaste tyngdpunkten. Euklidiskt avstånd används för att beräkna avståndet från datapunkten till tyngdpunkten. Datapunkterna klassificeras i grupper. Positionerna för k centroider beräknas igen. Den nya tyngdpunktspositionen bestäms av medelvärdet av alla punkter i gruppen. Återigen tilldelas varje datapunkt till den närmaste tyngdpunkten. Denna process upprepas tills tyngdpunkterna inte längre ändras. k-mean är en snabb klustringsalgoritm, men det finns ingen specificerad initiering av klustringspunkter. Det finns också en stor variation av klustermodeller baserade på initiering av klusterpunkter.
En annan klustringsalgoritm är densitetsbaserad klustring. Det är också känt som densitetsbaserade rumsliga klustringsapplikationer med brus. Det fungerar genom att definiera ett kluster som den maximala uppsättningen av densitetsanslutna punkter. De är två parametrar som används för densitetsbaserad klustring. De är Ɛ (epsilon) och minimipunkter. Ɛ är den maximala radien för grannskapet. Minsta poäng är det minsta antalet punkter i området Ɛ för att definiera ett kluster. Det är några exempel på klustring som faller in i oövervakat lärande.
Allmänt sett är resultaten som genereras från oövervakade inlärningsalgoritmer inte särskilt exakta och tillförlitliga eftersom maskinen måste definiera och märka indata innan den bestämmer de dolda mönstren och funktionerna.
Vad är likheten mellan övervakad och oövervakad maskininlärning?
Både övervakad och oövervakad inlärning är typer av maskininlärning
Vad är skillnaden mellan övervakad och oövervakad maskininlärning?
Övervakad vs oövervakad maskininlärning |
|
Övervakad inlärning är uppgiften för maskininlärning att lära sig en funktion som mappar en indata till en utdata baserat på exempel på input-output-par. | Oövervakad inlärning är uppgiften för maskininlärning att härleda en funktion för att beskriva dold struktur från omärkta data. |
Huvudfunktioner | |
I övervakat lärande förutsäger modellen resultatet baserat på märkta indata. | I oövervakat lärande förutsäger modellen resultatet utan märkta data genom att identifiera mönstren på egen hand. |
resultatens korrekthet | |
Resultaten som genereras från övervakade inlärningsmetoder är mer exakta och tillförlitliga. | Resultaten som genereras från oövervakade inlärningsmetoder är inte särskilt exakta och tillförlitliga. |
Huvudalgoritmer | |
Det finns algoritmer för regression och klassificering i övervakat lärande. | Det finns algoritmer för klustring i oövervakat lärande. |
Sammanfattning – övervakad vs oövervakad maskininlärning
Övervakad inlärning och oövervakad inlärning är två typer av maskininlärning. Övervakad inlärning är maskininlärningsuppgiften att lära sig en funktion som mappar en ingång till en utdata baserat på exempel på input-output-par. Oövervakad inlärning är uppgiften för maskininlärning att härleda en funktion för att beskriva dold struktur från omärkta data. Skillnaden mellan övervakad och oövervakad maskininlärning är att övervakad inlärning använder märkta data medan oövervakad lutning använder omärkta data.