> Tech Talks: Datenrepräsentation & Ähnlichkeitsmaße

Begrifflichkeiten der Ähnlichkeit und Unterschiedlichkeit, sowie Nähe und Ferne sind von zentraler Bedeutung für die mathematischen Modelle die beim Machine Learning zum Einsatz kommen.

Abstand, im geometrischen Sinne, scheint beim ersten Anblick als ein Begriff der wenig Interpretationsspielraum lässt. Doch für einen Mathematiker gibt es erstaunlich viele Freiräume in der Festlegung eines Abstandsmaßes. Aus der Festlegung eines solchen Maßes resultieren geometrische Räume mit unterschiedlichen mathematischen Eigenschaften.

Dieses Videoseminar beginnt mit einer Einführung in einige der Alternativen zur altbekannten Euklidischen Metrik, viz. der Manhattan Metrik, und, allgemeiner, der Familie der Minkowski-Metriken.

Als nächstes wird die Mahalanobis Metrik behandelt, die aus statistischer Sicht besonders relevant ist, da sie die Kovarianz-Struktur einer Datenmenge in Betracht zieht, und die Distanzen zwischen Datenpunkten in einem entsprechend dekorrelierten Referenzsystem misst.

Weiters, werden die Maße der Ähnlichkeit und Unähnlichkeit behandelt, die in den Bereichen Information Retrieval und Natural Language Processing Anwendung finden: Nämlich das Kosinus Ähnlichkeitsmaß, die Mengen-Überlappungs-Maße von Dice und Jaccard, und die String-Edit Distanzen wie die Hamming Distanz, die Levenshtein Distanz, und die Jaro-Winkler Ähnlichkeit.

Die String-Edit Distanzen kommen im Bereich Natural Language Processing, wie zum Beispiel in der PANOPTICOM Lösung zur Medienbeobachtung zur Anwendung, zum Beispiel um Tippfehler und Rechtschreibfehler, sowie orthographische und morphologische Variationen von Worten zu erkennen. Wenn zum Beispiel das Schlüsselwort “gesetzlich” als Signal für Relevanz erkannt wurde, so könnten Variationen wie der Tippfehler “gesetzilch” aufgrund der geringen String-Edit Distanz als solcher erkannt werden.

download  PDF download

(Abgedruckt mit freundlicher Erlaubnis von PANOPTICOM).