> Tech Talks: Naive Bayes & Bayessche Netzwerke

Naive Bayes und Bayessche Netzwerke wenden Bayessche Entscheidungstheorie auf Datenmengen an, wobei für die Datenpunkte eine Repräsentationsform gewählt wird in der sie durch Eigenschaften beschrieben werden, die entweder anwesend oder abwesend sein können.

Dabei trifft man die Annahme, dass die Eigenschaften paarweise wechselseitig stochastisch unabhängig sind. Bei Bayesschen Netzwerken, hingegen, wird diese Annahme aufgeweicht, und die Unabhängigkeitsannahme gilt nur für manche, aber nicht für alle Paare von Eigenschaften.

>> read more

> Tech Talks: Bayessche Entscheidungstheorie & Gauß-Modelle

Bayessche Entscheidungstheorie liefert ein Modell dafür, wie sich Entscheidungen auf Basis unsicherer Information aus a priori und a posteriori Wahrscheinlichkeiten ableiten. Sie ist daher eines der wichtigsten und vielseitigsten Werkzeuge des Data Scientist.

Wir wollen über eine Handlung entscheiden, bei der ein erhoffter Effekt entweder eintreten oder ausbleiben kann. Aus einer Bayesschen Perspektive besteht die Zielsetzung einer jeden Handlungsentscheidung darin, die Handlung zu unternehmen genau dann wenn der zu erwartende Nutzen der Handlung, im Falle des Eintretens des erhofften Effekts, größer ist als der zu erwartende Schaden, im Falle des Ausbleibens des erhofften Effekts. Ein solcher erhoffter Nutzen oder Schaden wird mathematisch erfasst als der Nutzen des erhofften Effekts, sofern er eintritt, multipliziert mit der Wahrscheinlichkeit dass der Effekt eintritt, abhängig davon dass die Handlung unternommen wurde. Diese Wahrscheinlichkeit kann in der Praxis oft nicht direkt beobachtet werden, kann aber aus der Bayesschen Regel aus beobachtbaren Größen berechnet werden.

>> read more

> Tech Talks: Nächstgelegene Prototypen Methoden

Der Überbegriff der Methoden Nächstgelegener Prototypen umfasst Methoden wie _k_-means und _k_-nearest neighbor. Diese werden auch manchmal unter dem Begriff “instance-based methods” zusammengefasst.

Bei diesen Methoden werden einzelne Datenpunkte aus der Stichprobe entweder direkt oder in Form einer Statistik abgespeichert. Vorhersagen über neue und unbekannte Datenpunkte werden dann getroffen, indem Vergleiche angestellt werden, mit ähnlichen oder naheliegenden Datenpunkten die aus der Stichprobe bereits bekannt sind.

>> read more

> Tech Talks: Datenrepräsentation & Ähnlichkeitsmaße

Begrifflichkeiten der Ähnlichkeit und Unterschiedlichkeit, sowie Nähe und Ferne sind von zentraler Bedeutung für die mathematischen Modelle die beim Machine Learning zum Einsatz kommen.

Abstand, im geometrischen Sinne, scheint beim ersten Anblick als ein Begriff der wenig Interpretationsspielraum lässt. Doch für einen Mathematiker gibt es erstaunlich viele Freiräume in der Festlegung eines Abstandsmaßes. Aus der Festlegung eines solchen Maßes resultieren geometrische Räume mit unterschiedlichen mathematischen Eigenschaften.

>> read more

> Tech Talks: Auswertung & Methodologie im Maschinellen Lernen

Die Methodologie der Auswertung hat enormen Einfluss auf das Endprodukt einer Machine Learning Lösung, da es den Theoretischen Rahmen schafft der definiert welche Lösung besser oder schlechter ist.

Von Interesse ist in diesem Zusammenhang die korrekte Behandlung des Problems als Spezialfall von einem der folgenden Typen: Überwachte Klassifikation (supervised classification), Teilüberwachte Klassifikation (semi-supervised classification), Unüberwachte Clusteranalyse (unsupervised clustering), Strukturlernen (structure mining), und Regression (regression). Weiters ist die korrekte Auswahl eines Auswertungsmaßes (evaluation measure) von Bedeutung, sowie die Einhaltung bestimmter methodologischer Vorgehensweisen um Effekte wie “data snooping bias” zu vermeiden.

>> read more

> Tech Talks: Entscheidungsbäume & Datenrepräsentation

Entscheidungsbäume sind eine sehr allgemeine Konzeptklasse, die für beinahe beliebige Datenmengen verwendet werden kann.

Doch diese allgemeine Ausdrucksstärke hat seinen Preis. Die Auswahl des richtigen Konzepts aus einer höher-dimensionalen Konzeptklasse, also zum Beispiel die Auswahl des richtigen Entscheidungsbaumes, aus der Menge aller möglichen Entscheidungsbäume, benötigt mehr Information als im niedrig-dimensionalen Fall, wie zum Beispiel der Auswahl eines Rechtecks aus der Menge aller Rechtecke. Weiters besteht oft das Problem, dass das Endresultat wenig Aussagekraft besitzt, wenn es darum geht eine einleuchtende Beschreibung für das den Daten zugrunde liegende Konzept zu liefern.

Dieses Videoseminar erklärt Entscheidungsbäume, einige der Vor- und Nachteil von sehr allgemeinen Konzeptklassen, wie jener der Entscheidungsbäume.

>> read more

> Tech Talks: Datenrepräsentation & Statistik

Die Datenmengen, die den Ausgangspunkt für Machine Learning Probleme darstellen, gehen hervor aus natürlichen oder mathematischen Prozessen, die erkennbare Muster in den Daten hinterlassen.

Wenn man zum Beispiel zwei numerische Eigenschaften der Datenpunkte herausgreift, und diese in einem Streudiagramm visualisiert, findet sich oft ein Muster in dem die Punkte um ein Zentrum herum angeordnet sind, wobei die Punkte in der Nähe des Zentrums dicht angeordnet sind, und diese Dichte abnimmt, je weiter man sich vom Zentrum entfernt. Ein solches Muster ist oft eine Normalverteilung, und gibt Aufschluss darüber, dass die Daten aus einem additiven Prozess hervorgegangen sind. Auf der anderen Seite findet man dieses Muster auch oft in verzerrter Form vor, sodass die Dichte auf einer Seite des Diagramms höher ist als auf der anderen. Dies würde auf einen multiplikativen Prozess hindeuten.

>> read more

> Tech Talks: Datenrepräsentation & Informationstheorie

Der Zweck des Machine Learnings besteht darin ein mathematisches Modell an die gegebenen Daten anzupassen. Doch wie kann man messen, wie viel Information in den Daten enthalten ist? Wie viel Information ist nötig, das richtige Modell auszuwählen? Um diese Fragen zu beantworten benötigen wir theoretische Hilfsmittel aus dem Gebiet der Informationstheorie.

Dieses Videoseminar ist eine Einführung in die Grundlagen der Informationstheorie und soll einen intuitiven Zugang zur Informationstheorie anhand eines Beispiels vermitteln, in dem es um die Entzifferung einer einfachen Verschlüsselung geht.

Wenn es darum geht zu messen, wie viel Information in einem digitalen Objekt enthalten ist, dann bietet sich ein naheliegender Lösungsansatz an, der darin besteht, einfach die Bytes zu zählen, die benötigt werden, um es abzuspeichern. Aber wie ist dieser Ansatz vereinbar mit Themen wie Datenkompression? Enthält eine Datei, die z.B. eintausend Nullen enthält wirklich gleich viel Information wie eine Datei die eintausend Zufallszahlen enthält? Die Informationstheorie erweitert den Gedanken die Bytes einer Datei abzuzählen in den Bereich der Statistik, und liefert Antworten auf derartige Fragen.

>> read more

> Tech Talks: Das PAC Modell

Wie entscheidet man über die Korrektheit einer Lösung eines Machine Learning Problems? Die Antwort eines Theoretikers: Die Lösung muss die formelle Eigenschaft der PAC-Korrektheit aufweisen, muss also “probably approximately correct” sein.

Der Ausgangspunkt eines Machine Learning Problems besteht in einer Datenmenge. Das Ziel besteht darin, dass die Maschine die Daten verstehen soll, in dem Sinne dass die Maschine selbständig Entscheidungen treffen können soll, im Bezug auf das den Daten zugrunde liegende Konzept oder Phänomen. Im Allgemeinen wäre es dabei zu viel verlangt, von der Maschine zu erwarten, dass nie eine falsche Entscheidung resultieren darf. Es genügt, wenn das Verständnis der Maschine “approximately correct” ist, wenn also, zum Beispiel, 80% der Entscheidungen korrekt sind. Außerdem wäre es auch zu viel verlangt, davon auszugehen, dass die Maschine in der Lage sein muss, ein gutes Verständnis der Daten zu entwickeln, unabhängig davon wie gut oder, aufgrund von Stichprobenfehlern, wie schlecht die Daten das zugrundeliegende Konzept oder Phänomen repräsentieren. Es genügt, wenn das Verständnis der Maschine “probably correct” ist, wenn also zum Beispiel im Hinblick auf 80% aller möglichen Stichproben die Maschine ein Verständnis der Daten entwickelt welches als “approximately correct” eingestuft werden kann.

In diesem Videoseminar gehe ich auf den theoretischen Rahmen von Machine Learning Problemen im Allgemeinen ein, und widme mich im Speziellen den theoretischen Grundlagen für formelle Aussagen zur Korrektheit von Lösungen von Machine Learning Problemen.

>> read more