Richard Bergmair's Mediathek

ML Vorlesung #2: Datenrepräsentation & Informationstheorie

Der Zweck des Machine Learnings besteht darin ein mathematisches Modell an die gegebenen Daten anzupassen. Doch wie kann man messen, wie viel Information in den Daten enthalten ist? Wie viel Information ist nötig, das richtige Modell auszuwählen? Um diese Fragen zu beantworten benötigen wir theoretische Hilfsmittel aus dem Gebiet der Informationstheorie.

Dieses Videoseminar ist eine Einführung in die Grundlagen der Informationstheorie und soll einen intuitiven Zugang zur Informationstheorie anhand eines Beispiels vermitteln, in dem es um die Entzifferung einer einfachen Verschlüsselung geht.

Wenn es darum geht zu messen, wie viel Information in einem digitalen Objekt enthalten ist, dann bietet sich ein naheliegender Lösungsansatz an, der darin besteht, einfach die Bytes zu zählen, die benötigt werden, um es abzuspeichern. Aber wie ist dieser Ansatz vereinbar mit Themen wie Datenkompression? Enthält eine Datei, die z.B. eintausend Nullen enthält wirklich gleich viel Information wie eine Datei die eintausend Zufallszahlen enthält? Die Informationstheorie erweitert den Gedanken die Bytes einer Datei abzuzählen in den Bereich der Statistik, und liefert Antworten auf derartige Fragen.

Der theoretische Rahmen des Problems eine unbekannte Entschlüsselung zu entziffern hat große Ähnlichkeit mit Machine Learning Problemen wie zum Beispiel der Unterscheidung von relevanten und irrelevanten Inhalten im Web in einem Medienbeobachtungssystem wie dem von PANOPTICOM.

Die Problemstellung in der Medienbeobachtung besteht darin, dass das Relevanzprofil eines Benutzers durch Relevanzentscheidungen impliziert wird, aber nicht direkt beobachtbar ist. Damit ergibt sich ein nontriviales Problem statistischer Induktion, nämlich der Identifikation jener Kriterien die die relevanten von den irrelevanten Inhalten unterscheiden.

Ein Kryptanalyst beim Versuch eine Entschlüsselung zu entziffern befindet sich in derselben Situation. Gegeben ist eine Datenmenge, bestehend aus abgefangenen Nachrichten im verschlüsselten Zustand. Wenn genug Nachrichten abgefangen wurden, dann implizieren die Nachrichten, zumindest theoretisch, den Schlüssel, aber die Extraktion des Schlüssels aus den Daten ist dennoch ein hoch komplexes Problem.

Es gibt noch ein zweites theoretisches Konzept welches in diesem Video erstmals auftaucht, und zwar das Konzept der Datenrepräsentation. Information kann nicht in rein abstrakter Form gemessen und quantifiziert werden, sondern es ist eine Reihe von ingenieursmässigen Entscheidungen, die bestimmen, wie Information repräsentiert wird, und somit zum Beispiel zu einer Datei auf einem Computer wird. In den nachfolgenden Videos werden wir immer wieder auf die vielfältigen Gründe zu sprechen kommen, warum diesen Entscheidungen beim Machine Learning so eine zentrale Rolle zukommt.