Analyse großer Datenmengen: Malen nach komplexen Zahlen

9. September 2015, 18:01
10 Postings

Große Datensätze wie Parlamentsprotokolle beinhalten zwar viele Informationen, sind aber zu umfangreich, um diese manuell zu erfassen.

St. Pölten – Auf dem Bildschirm sind drei Punkte zu sehen, die durch Linien miteinander verbunden sind. Einer der Punkte steht für ein Ministerium, die anderen beiden für Medienhäuser. Dieses Netzwerk zeigt, wann das Ministerium in welchem Medium Anzeigen geschaltet hat und wie viel Geld dabei im Spiel war.

So oder ähnlich könnte eine visuelle Datenaufarbeitung der Medientransparenzdatenbank aussehen. Diese Datenmengen können manuell kaum bewältigt werden, darum analysieren Datenjournalisten mittels Computer Datenbanken, um daraus Geschichten zu generieren. "Datenjournalismus ist in aller Munde, wird aber in wenigen Medienhäusern tiefergehend betrieben", sagt Wolfgang Aigner vom Department Medien und Digitale Technologien an der Fachhochschule St. Pölten.

Der Grund dafür: Bei der Analyse komplexer Datensätze stoßen bestehende Programme an ihre Grenzen, und "den Journalisten fehlen oft die technischen Möglichkeiten, um große Datenmengen zu analysieren", sagt Aigner. Das liege auch daran, dass die Bedienbarkeit der Programme schlecht sei und die Arbeitsabläufe in den Redaktionen solche Projekte oft gar nicht zulassen.

Bessere Bedienbarkeit

Das will Aigners Forschungsprojekt VALiD, das für "Visual Analytics in Data-Driven Journalism" steht, ändern. Gemeinsam mit Wissenschaftern der FH St. Pölten, der Universität Wien, der FH Joanneum und der Produktionsfirma "drahtwarenhandlung Film & Animation" will Projektleiter Aigner Werkzeuge liefern, um die Datenanalyse zu vereinfachen. Finanzielle Unterstützung kommt vom Verkehrsministerium.

Seit Jänner dieses Jahres arbeitet das Team an Lösungsansätzen und geht das Problem nicht nur aus technischer Sicht, sondern auch aus jener der Datenjournalisten an. Dafür führen die Forscher Interviews mit Datenjournalisten.

"Wir wollen wissen, wie sie arbeiten, welche Probleme sie haben und welche Infrastruktur es in den Redaktionen benötigt", sagt Aigner. Auf Basis dieser Informationen werden Prototypen für Programme erarbeitet. Dafür entwickeln die Forscher auch bestehende Datenanalyseprogramme weiter. "Die Herausforderung liegt darin, die komplexen Daten überhaupt darstellbar und analysierbar zu machen", sagt Aigner.

Dazu hat sich sein Team zwei bestehende komplexe Datensätze ausgesucht: einerseits zeitbezogene Textdaten in Form der Parlamentsprotokolle des Nationalrats der vergangenen 50 Jahre. Und andererseits Daten der Medientransparenzdatenbank.

Gelächter im Plenarsaal

Solche Daten werden als komplexe oder heterogene Daten bezeichnet, weil sie mehrere Informationen enthalten: "Die Parlamentsprotokolle haben Zeit-, Text- und Metainformation, etwa ob ein Vortrag eines Abgeordneten für Gelächter gesorgt hat", sagt Aigner. Diese Informationen würden nur zusammen betrachtet Sinn ergeben. Viele der bestehenden Analysemethoden sind aber so ausgelegt, dass sie nur eine Information analysieren können.

Mithilfe der Technik der visuellen Datenanalyse sollen mehrere Informationen gleichzeitig analysiert werden können. "Dabei übersetzen wir die abstrakten Daten in etwas Bildhaftes", sagt Aigner – wie das Netzwerk aus Knoten und Linien der Medientransparenzdatenbank. Somit lassen sich auf einen Blick Zusammenhänge erschließen, die in den nackten Daten verborgen bleiben. "Menschen entdecken in solchen Visualisierungen sehr schnell Ausreißer, ein wiederkehrendes Muster oder fehlende Daten", sagt Aigner. Würde man den Datensatz in Excel einspielen, wäre es schwieriger, Derartiges zu erkennen.

Um zu wissen, ob die entwickelten Programme tatsächlich benutzerfreundlicher sind, lässt das Team laufend Journalisten die Prototypen testen. Zusätzlich werden Guidelines und Best-Practice-Beispiele erarbeitet. "Diese erklären, welche Darstellungsart oder Programme für welche Daten am besten geeignet sind." Zusammen mit seinen Kollegen bietet Aigner auch Workshops zum Umgang mit den Programmen an. "Damit wollen wir Journalisten die Vorbehalte nehmen, dass Datenjournalismus irrsinnig kompliziert ist." (Selina Thaler, 9.9.2015)


Seine Arbeiten zu Visual Analytics präsentiert Wolfgang Aigner mit seinem Team am 25. 9. in der Wiener Aula der Wissenschaften, Wollzeile 27A, bei der European Researchers' Night, deren österreichischer Beitrag von der FH St. Pölten mit dem Wissenschaftsministerium organisiert wird.

Link
European Researchers' Night: exploring science, having fun

  • Artikelbild
    illu.: fatih aydogdu
Share if you care.