Richard Bergmair's Mediathek

ML Vorlesung #5: Auswertung & Methodologie im Maschinellen Lernen

Die Methodologie der Auswertung hat enormen Einfluss auf das Endprodukt einer Machine Learning Lösung, da es den Theoretischen Rahmen schafft der definiert welche Lösung besser oder schlechter ist.

Von Interesse ist in diesem Zusammenhang die korrekte Behandlung des Problems als Spezialfall von einem der folgenden Typen: Überwachte Klassifikation (supervised classification), Teilüberwachte Klassifikation (semi-supervised classification), Unüberwachte Clusteranalyse (unsupervised clustering), Strukturlernen (structure mining), und Regression (regression). Weiters ist die korrekte Auswahl eines Auswertungsmaßes (evaluation measure) von Bedeutung, sowie die Einhaltung bestimmter methodologischer Vorgehensweisen um Effekte wie “data snooping bias” zu vermeiden.

Bei einem überwachten Klassifikationsproblem sind zwei Arten von Daten gegeben: einerseits eine Datenmenge, wobei die einzelnen Datenpunkte durch verschiedene beobachtbare Eigenschaften charakterisiert werden, und andererseits Klassenzuordnungen. Die Aufgabe der Maschine besteht darin, die Klassenzuordnungen für neue Datenpunkte vorherzusagen.

Bei einem unüberwachten Clusteranalyseproblem ist nur die erstere Art von Daten vorhanden, i.e. eine Datenmenge, wobei, wie zuvor, die einzelnen Datenpunkte durch beobachtbare Eigenschaften charakterisiert sind, aber keinerlei Klassenzuordnungen. Die Aufgabe besteht, in diesem Fall, darin, anhand der Struktur des Eigenschaftsraums, sowie der Verteilung der Datenpunkte innerhalb dieses Raumes, Gruppen zu bilden, mit dem Ziel dass die Punkte die einer Gruppe zugeordnet sind eine Nähebeziehung oder eine Ähnlichkeitsbeziehung zueinander haben, aber nicht zu den Punkten in anderen Gruppen. Man spricht bei derartigen Gruppen von Clustern.

Die selbstlernende Medienbeobachtungslösung von PANOPTICOM ist ein Beispiel für den dritten Typ von Machine Learning Problem. Es handelt sich um ein Problem teilüberwachter Klassifikation, einer Mischform zwischen überwachten und unüberwachten Machine Learning Problemen. Die Datenpunkte mit der wir es in der Medienbeobachtung zu tun haben sind Inhalte aus digitalen Medien, wie Webseiten, Artikel in RSS-basierten Blogs, Tweets auf Twitter, etc. Als Klassenzuordnungen ist von Interesse, ob der einzelne Inhalt für den Klienten relevant oder nicht relevant ist. Diese Klassenzuordnungen sind aber für einige, aber nicht für alle, Datenpunkte vorhanden, da der menschliche Lektor diese Daten nur stichprobenhaft überprüft. In diesem Fall, sind es die vorhandenen Klassenzuordnungen, die die Klassen definieren, sodass festgelegt ist, dass es bei der Klassenunterscheidung um die Unterscheidung zwischen relevanten und irrelevanten Inhalten geht. Aber als Grundlage für den Lernprozess werden nicht nur die Stichproben mit vorhandenen Klassenzurrodnungen herangezogen, sondern auch, wie bei der Clusteranalyse, die Struktur des Eigenschaftsraums und die Verteilung der Datenpunkte innerhalb des Raumes, um zusätzlichen Nutzen aus den nicht-klassifizierten Datenpunkten zu gewinnen. Bei Blogartikeln zum Beispiel könnte davon ausgegangen werden, dass Blogartikel von derselben Quelle, oder Blogartikel mit ähnlichen Schlüsselworten ein ähnliches Verhalten aufweisen, im Hinblick auf ihre Relevanz.

Ein weiteres Thema innerhalb des Themenfelds der Methodologie ist die Auswahl eines Auswertungsmaßes, wobei einige Faktoren zugrunde gelegt werden. Innerhalb des Beispiels der Medienbeobachtung könnten folgende Fragestellungen eine Rolle spielen: Versuchen wir in erster Linie, Fehler zu minimieren, die sich so auswirken, dass relevante Inhalte fälschlich als irrelevant klassifiziert werden, oder solche Fehler, die sich so auswirken, dass irrelevante Inhalte fälschlich als relevant klassifiziert werden? Sind alle Inhalte “gleich wichtig”, oder gibt es Inhalten, bei denen eine Fehlklassifikation größeres Gewicht haben soll, als bei anderen?

Auch das Thema “data snooping bias” spielt eine entscheidende Rolle für jeden Data Scientist. Dabei handelt es sich um einen statistischen Effekt dem man leicht unwissend zum Opfer fällt, wenn man nicht auf die Einhaltung bestimmter “best practices” achtet, die wir in diesem Videoseminar auch im Detail behandeln.