> Tech Talks: Nächstgelegene Prototypen Methoden

Der Überbegriff der Methoden Nächstgelegener Prototypen umfasst Methoden wie _k_-means und _k_-nearest neighbor. Diese werden auch manchmal unter dem Begriff “instance-based methods” zusammengefasst.

Bei diesen Methoden werden einzelne Datenpunkte aus der Stichprobe entweder direkt oder in Form einer Statistik abgespeichert. Vorhersagen über neue und unbekannte Datenpunkte werden dann getroffen, indem Vergleiche angestellt werden, mit ähnlichen oder naheliegenden Datenpunkten die aus der Stichprobe bereits bekannt sind.

In diesem Video, werden die Grundideen hinter diesen Methoden präsentiert. Die erste Idee besteht darin, Cluster als Untermengen einer Datenmenge statistisch zusammenzufassen, zum Beispiel durch verschiedene Lageparameter, was im maschinellen Lernen zu Methoden wie _k_-means, _k_-medians, _k_-medoids etc. führt. In einem Klassifikationsproblem, zum Beispiel, kann dann die Klassenzugehörigkeit eines neuen und unbekannten Datenpunktes entschieden werden, indem die Klasse die mehrheitlich in jenem Cluster vertreten ist, der seinen Mittelwert (_k_-means), seinen Median (_k_-medoids), seinen Medoid (_k_medoids), etc. am nächsten hat.

Die zweite Idee besteht darin, Ausreißer auszuglätten, indem man eine Mehrheitsentscheidung über mehrere nahegelegene Cluster bildet.

Die Methode zum maschinellen Lernen, die bei PANOPTICOM in zur Medienbeobachtung eingesetzt wird bringt diese Ideen mehrfach zum Einsatz, wobei die Methode aber nicht auf die unmittelbare Anwendung eines Standardverfahrens wie _k_-means beschränkt ist.

download  PDF download

(Abgedruckt mit freundlicher Erlaubnis von PANOPTICOM).