Studien mit Big Data von Google oder sozialen Medien sind oft wertlos 

27. November 2014, 19:30
11 Postings

Österreichischer Forscher zeigt Probleme von Analysen und Vorhersagen mit Daten aus Internet-Nutzerverhalten auf

Wien - Internet-Suchanfragen und soziale Medien generieren gigantische Datenmengen, die immer öfter für wissenschaftliche Studien oder Prognosen genutzt werden. Ein Beispiel ist etwa Googles "Flu-Trends", das aufgrund von sich häufenden Suchanfragen Grippeepidemien und Krankenstände vorhersagen will. Der Netzwerkanalytiker Jürgen Pfeffer (Carnegie Mellon University) und sein Kollege Derek Ruths (McGill University in Montreal) melden nun im Fachblatt "Science" Zweifel an solchen Datenanalysen an - so auch an den Grippetrends von Google.

Anhand der Suchanfragen nach Grippesymptomen sagten die Google-Leute dabei vorher, wie viele Menschen sich in den folgenden Tagen krank melden würden. "Alles lief großartig, aber plötzlich funktionierte das Ding nicht mehr, und viele Probleme kamen zum Vorschein", erklärte er.

Winter vorhergesagt

Es habe sich herausgestellt, dass die Google-Analyse den Winter anstatt der Grippe vorausgesagt hat. Unter den verwendeten 50 Millionen Variablen einer Grippe-Datenreihe würde man immer etwas finden, das korreliert, aber nicht zusammenhängt, meint er - so wie auch die Geburtenraten und die Zahl der Störche in ländlichen Gebieten. "Wenn die Grippe aber einmal kommt, wenn es wärmer wird, funktioniert das Modell nicht mehr", so Pfeffer.

Bei vielen solchen Studien sei es problematisch, dass Daten und Berechnungsverfahren geheim gehalten werden. "Google hat sich bis heute geweigert, das dahinter liegende Modell zu veröffentlichen, damit es von anderen Wissenschaftern überprüft werden kann", erklärte er. Auch die verwendete Suchanfrage-Datenbank sei nur sehr eingeschränkt zugänglich.

Problematische Autovervollständigung

Die Suchdaten wären außerdem verzerrt. "Es stellte sich raus, dass Google in der Datenbank nicht speichert, was die Benutzer tippen, sondern das, was nach der Autovervollständigung eingegeben wird", so Pfeffer. Dadurch ginge ein Teil des "menschlichen Verhaltens" verloren.

Trotz der großen Menge seien auch die Benutzer von Sozialen Medien nicht unbedingt repräsentativ, betont Pfeffer und sein Kollege Derek Ruths, der an der McGill University in Montreal (Kanada) forscht. Das soziale Netzwerk "Pinterest", in dem Bilder und Videos geteilt, geliked und kommentiert werden, würde etwa von Mittelschicht-Frauen zwischen 25 und 34 dominiert, und sein Pendant "Instagram" von afro- und lateinamerikanischen Stadtbewohnern zwischen 18 und 29. Solche Verfälschungen wären in den seltensten Fällen erwähnt, geschweige denn berücksichtigt.

Viele "Personen" in den Sozialen Medien seien auch gar keine authentischen Menschen. So würden PR-Agenturen für Prominente oder Firmen schreiben, es gebe Phantomkonten und Computerprogramme, die posten. Die Betreiber würden gefälschten Benutzerkonten zwar suchen und entfernen. Für unabhängige Forscher seien sie aber in einem Datensatz kaum zu erkennen, meinen Pfeffer und Ruths. Sie plädieren an ihre Kollegen, bei Studien mit Daten aus dem Internet höhere Qualitäts- und Berechnungsstandards zu verwenden, als aktuell verbreitet. (tasch/APA, DER STANDARD, 28.11.2014)

  • Suchdaten der Internetsuchmaschine Google eignen sich nur wenig für die Analyse von menschlichem Verhalten oder die Prognose von Entwicklungen, wie nun Wissenschafter festgestellt haben.
    foto: reuters/francois lenoir

    Suchdaten der Internetsuchmaschine Google eignen sich nur wenig für die Analyse von menschlichem Verhalten oder die Prognose von Entwicklungen, wie nun Wissenschafter festgestellt haben.

Share if you care.