Richard Bergmair's Mediathek

ML Vorlesung #1: Das PAC Modell

Wie entscheidet man über die Korrektheit einer Lösung eines Machine Learning Problems? Die Antwort eines Theoretikers: Die Lösung muss die formelle Eigenschaft der PAC-Korrektheit aufweisen, muss also “probably approximately correct” sein.

Der Ausgangspunkt eines Machine Learning Problems besteht in einer Datenmenge. Das Ziel besteht darin, dass die Maschine die Daten verstehen soll, in dem Sinne dass die Maschine selbständig Entscheidungen treffen können soll, im Bezug auf das den Daten zugrunde liegende Konzept oder Phänomen. Im Allgemeinen wäre es dabei zu viel verlangt, von der Maschine zu erwarten, dass nie eine falsche Entscheidung resultieren darf. Es genügt, wenn das Verständnis der Maschine “approximately correct” ist, wenn also, zum Beispiel, 80% der Entscheidungen korrekt sind. Außerdem wäre es auch zu viel verlangt, davon auszugehen, dass die Maschine in der Lage sein muss, ein gutes Verständnis der Daten zu entwickeln, unabhängig davon wie gut oder, aufgrund von Stichprobenfehlern, wie schlecht die Daten das zugrundeliegende Konzept oder Phänomen repräsentieren. Es genügt, wenn das Verständnis der Maschine “probably correct” ist, wenn also zum Beispiel im Hinblick auf 80% aller möglichen Stichproben die Maschine ein Verständnis der Daten entwickelt welches als “approximately correct” eingestuft werden kann.

In diesem Videoseminar gehe ich auf den theoretischen Rahmen von Machine Learning Problemen im Allgemeinen ein, und widme mich im Speziellen den theoretischen Grundlagen für formelle Aussagen zur Korrektheit von Lösungen von Machine Learning Problemen.

Als Beispiel betrachten wir das Konzept des Rechtecks. Ausgangspunkt ist eine Datenmenge, bestehend aus Punkten in der zweidimensionalen Ebene, wobei davon ausgegangen wird, dass diese Punkte aus einem Prozess resultieren, welcher alle jene Punkte in rot einfärbt die in ein bestimmtes Rechteck fallen, und alle anderen in blau. Unser Ziel ist es, dieses Rechteck zu identifizieren, um Vorhersagen über die Farbe von Punkten treffen zu können.

Der Lösung eines solchen abstrakt vereinfachten Problems liegen bestimmte Konzepte zugrunden, die auch anwendbar sind auf wesentlich komplexere artverwandte Probleme, wie zum Beispiel auf die Entwicklung eines selbstlernenden Verfahrens zur Medienbeobachtung, wie jenes von PANOPTICOM.

So könnten etwa die roten Punkte relevante Tweets auf Twitter sein, relevante Blog-Artikel aus RSS Feeds, relevante HTML Seiten im Web, etc., währendem es sich bei den blauen Punkten um Irrelevantes handeln könnte. Im Falle abstrakter Punkte in der zweidimensionalen Ebene, können bestimmte Eigenschaften, wie die Position entlang der X-Achse, oder die Position entlang der Y-Achse beobachtet werden. In der Medienbeobachtung kann zum Beispiel die Anwesenheit oder Abwesenheit bestimmter Schlüsselwörter beobachtet werden.

Weiters können wir für eine Stichprobe die “Farbe” beobachten. Bei der selbstlernenden Methode zur Medienbeobachtung von PANOPTICOM geschieht dies durch einen menschlichen Lektor oder Kodierer, der die Relevanzklassifikationen in den Computer eingibt, die dann die Grundlage bilden, auf Basis derer der Computer lernt, wie die relevanten von den irrelevanten Inhalten unterschieden werden können.

Es gibt noch einen zweiten Grund sich mit der Frage auseinanderzusetzen, wie ein Computer etwas so simples wie ein Rechteck zu verstehen lernen kann: Es hilft dabei, ein entmystifiziertes Verständnis von Machine Learning und von künstlicher Intelligenz zu entwickeln.

Wenn Inhalte zu Themen wie Machine Learning oder selbstlernenden Computersystemen populärwissenschaftlich für ein breiteres Publikum aufbereitet werden, sind es meist die Analogien zu biologischen Systemen und zur Lernfähigkeit des Menschen, die ins Zentrum des Interesses rücken. Zum Beispiel die Idee eines neuronalen Netzes, welches ein Modell eines menschlichen Gehirns im Computer nachbildet, sorgt für interessanten Lesestoff, aber verleitet schnell zu ungerechtfertigten Überverallgemeinerungen, wenn man den Gedanken zu ernst nimmt, dass der Computer die Lernfähigkeit eines Menschen besitzt.

Der Ansatz der darin besteht die Ingenieursleistungen der Natur nachzuahmen ist in der Praxis oft nicht zweckdienlich. Flugzeuge, zum Beispiel, fliegen nicht indem sie mit den Flügeln schlagen, und Vögel haben keine Düsentriebwerke, und es gibt eine ganze Wissenschaft der Aerodynamik, die sich aus der systematischen Beobachtung von physikalischen Effekten ergibt, welche über die bei Vögeln beobachtbare Effekte weit hinausgehen.

Es ist nichts daran auszusetzen, ein banales Konzept wie “Rechteck” als Lösung für ein Machine Learning Problem einzusetzen, sofern “Rechteck” die korrekte Beschreibung der Daten ist, auch wenn “Rechteck” von all dem magischen Lern-Mojo von biologischen Neuronen nichts besitzt, und obwohl es sich als seltsam anfühlt, einen Prozess als “künstliche Intelligenz” zu beschreiben, der darin besteht ein Rechteck an eine Datenmenge anzupassen.