Palmetto Demo

Demo hier öffnen.

Über die De­mo

Mit Topic Modeling ist es möglich, Themen aus einer Sammlung von Dokumenten automatisch und unbeaufsichtigt zu extrahieren. Ein Nachteil der Themenmodellierung ist, dass die erstellten Themen in den meisten Fällen manuell von Menschen ausgewertet werden müssen. Palmetto ist ein Werkzeug, das den Forschern helfen soll, indem es verschiedene Kohärenzberechnungen für die Top-Wörter eines Themas anbietet. Diese Kohärenzberechnungen basieren auf dem Vorkommen von Wörtern in der englischen Wikipedia und korrelieren erwiesenermaßen mit menschlichen Bewertungen.

Der Quellcode ist doppelt lizenziert und kann auf Github gefunden werden. Für größere Experimente kann das Programm heruntergeladen oder der Webservice genutzt werden. Mehr darüber, wie Palmetto verwendet werden kann, finden Sie auf dieser Wikipage.

Ein niederländischer Index für Palmetto wurde von van der Zwaan, Marx und Kamps erstellt. Damit kann Palmetto auch für Niederländisch verwendet werden. Der Index kann hier heruntergeladen werden.

Für Forscher, die selbst verschiedene Kohärenzen ausprobieren wollen, könnte es interessant sein, dass Palmetto als Java-Bibliothek verwendet werden kann und bereits mehr als 200.000 Kohärenzen enthält, die für die Veröffentlichung Exploring the Space of Topic Coherences ausgewertet wurden.

Die in dieser Publikation verwendeten Themen und menschlichen Bewertungen sowie die Korpora Movie und RTL-Wiki finden Sie hier. Da wir nicht alle Datensätze selbst erstellt haben, bitten wir Sie, die Ersteller/Anbieter der Datensätze zu nennen, wo es angebracht ist. Sie finden den Verweis auf deren Veröffentlichungen in unserer Publikation in dem Abschnitt, der die Datensätze beschreibt.