Open Data Day 2014 – Analyse von Verwaltungstexten

Wortprotokolle, Gemeindenachrichten, öffentliche Dokumente, Wahlprogramme – sie alle sind Open Data mit unstrukturierten Inhalten. Am Open Data Day 2014 experimentierten wir mit Text Mining, Text Analyse, Frequenzanalysen, Entity Extractions und Trenduntersuchungen um maschinenverarbeitbare Kategorisierungen, Annotations und Gewichtungen aus diesen Corpora zu extrahieren. Gesucht und getestet wurden kostenfrei zu nutzende Softwaremodule und Tools. Im Folgenden die Berichte der Teilnehmer/innen.

Werner Giefing

shc-association-rules-filter

Ich war zum ersten Mal bei einem Lehrgang der SoD dabei und ich fand die Atmosphäre angenehm. Das wohltemperierte Umfeld und die reichlich vorhandene Verpflegung – vor allem die Kaffeemaschine – taten ihr übriges. Mich beeindruckte die entspannte und unkomplizierte Zusammenarbeit der Teilnehmer und der qualitativ wertvolle Output der gemeinsam verbrachten Stunden.

Die Verwendung von Text Mining Tools für die Aufbereitung von (öffentlichen) Massendaten war weitgehend Neuland für mich. Die quantitativen Ergebnisse des Tages waren leider nicht rasend überwältigend, da die meisten Werkzeuge bei rechten Licht betrachtet zur Zeit nur für englisch-sprachige Texte taugen (Umlaute, Thesauri, etc.). Nichts desto trotz gibt es bereits Freeware Tools, die mich besonders vom look-and-feel beeindruckten. An dieser Stelle  möchte ich hier „Orange“  (http://orange.biolab.si ) hervorheben, das mit Python realisiert wurde und für Windows und Mac OS zur Verfügung steht. Die Verwendung und die Datenaufbereitung erschließen sich jedoch nicht auf den ersten Blick. Genügend Einarbeitungszeit ist von Nöten, aber dann steht einer transparenten Analyse diverser Datenquellen nichts im Wege. Mit anderen Worten, die Stecknadel im Datenhaufen kann gefunden werden.

Die von uns genutzten Werkzeuge und andere sind auch auf http://butleranalytics.com/5-free-text-mining-tools/ zu finden.

Bernhard Krabina und Thomas Thurner

1912330_10202952341871656_207175757_nZeitreihen von Begriffshäufigkeiten in Textbündeln hat bereits das Google NGRAM Projekt in Zusammenhang mit den Beständen von Google Books darstellen können. Harvard hat ein darauf basierendes Tool veröffentlicht, mit dem man jegliche Textbündel analysieren kann. Wir haben das mit den Grazer Gemeinderatsprotokollen ausprobiert. Nach einigen Fehlversuchen, bei denen Umlaute und Steuerzeichen in den Texten zu Fehlern führten, schafften wir schließlich doch Worthäufigkeitsanalysen (bzw. Wortanteilsanalysen) zu realisieren.

Ein Offline Tool ist der QDA-Miner der Firma Provalis. Da mit diesem Tool über die einfache Frequenzanalyse auch die Modelierung von Wörterbüchern möglich ist,hier auch eine Analyse in Deutscher Sprache möglich. Darüber kann man Die Struktur des zu analysierenden Texts miteinbeziehen und nach Wortgruppen in Absätzen oder Sätzen suchen. Damit sind schon erste sinnerfassende Analysen (wer stellt Anträge für welche Themen, wer spendet viel Beifall, Zu welchem Thema gibt es Zwischenrufe, etc) möglich.

linz1

Analyse der Gemeinderatsprotokolle der Stadt Linz 2012-2013.

Die erste Grafik zeigt die Anzahl der Nennungen der Parteien (gezählt wurden einzelne Absätze). Im Vergleich dazu die Nennungen der Parteien „in der Nähe von“ dem Vorkommen von „Zwischenruf“. Das bedeutet also nicht, dass die meisten Zwischenrufe von der ÖVP kommen, aber dass sie in der Nähe von Erwähnungen der ÖVP auftreten. Die ÖVP scheint also mit ihren Erwähnungen in den Protokollen den Gemeinderat zu dominieren. Kann das jemand bestätigen oder entkräften?

Und hier noch ein paar Begriffe und deren Vorkommen.

linz2Konklusio

Obwohl es grundsätzlich eine gute Auswahl an freien Werkzeugen für diesen Zweck gibt, musste ernüchternd festgestellt werden, dass viele Tools entweder grundsätzlich mit deutschsprachigen Texten nicht umgehen können bzw. falls diese unabhängig von der Sprache des Textes funktionieren, mit Texten, in denen deutschsprachige Umlaute oder andere Sonder- oder Steuerungszeichen (z. B: Tabstopps) enthalten sind, nicht oder nicht zufriedenstellend zusammenarbeiten. So wurde die meiste Zeit damit verbracht, Analysen überhaupt zum Laufen zu bringen anstatt sich Gedanken zu machen, welche Art von Analyse in welchen Kontexten denn zu sinnvollen Aussagen führen könnte. Hier herrscht sicher noch Nachbesserungsbedarf bei diversen Toolanbietern.

Anna Kaucic-Huber

Für mich war es recht produktiv und interessant obwohl ich bei meinen ersten Versuchen – ich habe versucht die Dokumente der  Untersuchungskommission des Wiener Gemeinderatszur Praxis der Wiener Flächenwidmungen mit dem Harvard Bookworm tool zu analysieren – bis jetzt – gescheitert bin (…the most likely reason is your files have too many non-unicode characters).

Dieser Tag hat mir gezeigt – dass die Tools, zumindest die frei zugänglichen, weitgehend mit Umlauten, deutschsprachigen Texten, nicht umgehen können (shame on EU dass wir dieses Thema so lange dem anglo-amerikanischen Raum überlassen haben). Und dann ist es natürlich auch noch ganz mühsam die unterschiedlichen Formate der „Quellen“ aufzubereiten (pdf, word, txt … störende Steuerzeichen, etc.).Dabei ist das nur vorgelagerter Tand – die interessanten Fragen kommen ja erst dann.. sowohl bezüglich der Sinnhaftigkeit/Aussagekraft der abgefragten Daten, als auch der Potenz der verwendeten Tools/Algorithmen.Trotzdem, für mich als Neulingin war’s interessant, ist’s interessant – ich finde es wichtig dass Europa, mit seiner sprachlichen Vielfalt, sich vermehrt in der Tool-Produktion engagiert  – um die Nutzung des freien Zugriffs auf Daten zugänglicher zu machen.

Weitere Ergebnisse finden sich auf der Wikipage des Open Data Day 2014.

Advertisements