Überwachtes Lernen (Wiederholung)
Überwachtes Lernen beruht immer darauf, dass wir Beispiele haben, bei denen wir "die richtige Lösung" bereits kennen. Diese Beispiele nennen wir auch Trainingsdaten:
- Wenn die Aufgabe ist, Bildern von Hunden und von Katzen zu unterscheiden, brauchen wir viele Bilder, bei denen wir wissen, ob sie einen Hund oder eine Katze zeigen.
- Wenn die Aufgabe ist, E-Mails mit unerwünschter Werbung (Spam) von normalen Mails zu unterscheiden, brauchen wir viele E-Mails, bei denen wir wissen, ob sie Spam sind oder nicht.
- Wenn die Aufgabe ist, handgeschriebene oder gedruckte Texte in digitalen Text umzuwandeln, brauchen wir viele Bilder von Texten, bei denen wir wissen, welcher Text darauf steht.
Bei dem aus dem ersten Teil dieses Kurses bekannte, ausgedachte Beispiel ging es darum, anhand von Niedlichkeit und Flauschigkeit Tierarten voneinander zu unterscheiden.
Die Trainingsdaten für diese Aufgabe sehen so aus. Wir sprechen auch von Datenpunkten, weil jedes einzelne Wertepaar (für Niedlichkeit und Flauschigkeit) sich als Punkt in ein zweidimensionales Koordinatensystem eintragen ließe:
datenpunkte = [
{niedlichkeit: 0.21, flauschigkeit: 0.91, spezies: "vogelspinne"},
{niedlichkeit: 0.27, flauschigkeit: 0.80, spezies: "vogelspinne"},
{niedlichkeit: 0.15, flauschigkeit: 0.75, spezies: "vogelspinne"},
{niedlichkeit: 0.37, flauschigkeit: 0.87, spezies: "vogelspinne"},
{niedlichkeit: 0.29, flauschigkeit: 0.70, spezies: "vogelspinne"},
{niedlichkeit: 0.90, flauschigkeit: 0.90, spezies: "haeschen"},
{niedlichkeit: 0.86, flauschigkeit: 0.80, spezies: "haeschen"},
{niedlichkeit: 0.75, flauschigkeit: 0.84, spezies: "haeschen"},
{niedlichkeit: 0.95, flauschigkeit: 0.75, spezies: "haeschen"},
{niedlichkeit: 0.70, flauschigkeit: 0.65, spezies: "haeschen"},
{niedlichkeit: 0.31, flauschigkeit: 0.22, spezies: "hai"},
{niedlichkeit: 0.14, flauschigkeit: 0.13, spezies: "hai"},
{niedlichkeit: 0.21, flauschigkeit: 0.06, spezies: "hai"},
{niedlichkeit: 0.11, flauschigkeit: 0.25, spezies: "hai"},
{niedlichkeit: 0.33, flauschigkeit: 0.11, spezies: "hai"},
{niedlichkeit: 0.90, flauschigkeit: 0.10, spezies: "igel"},
{niedlichkeit: 0.80, flauschigkeit: 0.17, spezies: "igel"},
{niedlichkeit: 0.70, flauschigkeit: 0.11, spezies: "igel"},
{niedlichkeit: 0.75, flauschigkeit: 0.26, spezies: "igel"},
{niedlichkeit: 0.92, flauschigkeit: 0.22, spezies: "igel"}
]
Anhand dieser Beispiel können wir mit dem k-nächste Nachbarn Verfahren unbekannte Datenpunkte einer Tierart zuordnen...
Alternativ könnten wir sie auch dazu verwenden, ein künstliches neuronales Netz darauf zu trainieren, Datenpunkte zuzuordnen.