Boston/Wien - Seit einigen Jahren gilt Big Data in der Wissenschaft als das neue große Ding. Nicht nur der Ex-Ö3-Chef Rudi Klausnitzer hat ein Buch darüber verfasst, sondern kürzlich erst und um einiges seriöser der aus Österreich stammende Oxford-Professor Viktor Mayer-Schönberger.
Das Versprechen für die Forschung ist einleuchtend: Wenn man die riesigen Datenmengen, die etwa durch Google-Anfragen, Twitter-Meldungen oder Facebook-Einträge entstehen, statistisch klug auswertet, können dadurch ganz neue Erkenntnisse entstehen, und Trends können in Echtzeit verfolgt werden. Wie zum Beispiel die Entstehung und die Ausbreitung von Epidemien.
Eines der ersten Big-Data-Projekte kam von Google, nennt sich Google Flu Trends (GFT) und wurde bereits 2009 von Forschern des Internetmultis im Fachblatt "Nature" vorgestellt. Das Konzept klingt plausibel: Über fünf Jahre lang wurden die 50 Millionen häufigsten Suchbegriffe mit den Krankheitsdaten der Seuchenschutzbehörde CDC "synchronisiert". Auf diese Weise stießen die Forscher auf 45 Suchbegriffe (wie Husten oder Fieber), die stark mit dem Auftreten einer Grippe zusammenhängen.
Dadurch sollte es möglich werden, die Zahl der Arztbesuche wegen Influenza in den nächsten neun Wochen vorherzusehen - im Gegensatz zu den Modellen von CDC, die im Normalfall um rund zwei Wochen nachhinken. Doch Google Flu Trends scheint in den vergangenen drei Jahren weitaus weniger gut funktioniert zu haben als erhofft, berichten US-Forscher um David Lazer (Northeastern University in Boston) im Fachmagazin "Science".
Der Fehler begann wohl damit, dass die ursprüngliche Version von GFT 2009 eine außersaisonale H1N1-Pandemie in den USA einfach übersah. Also dürfte die Sensitivität nachgeschärft worden sein. Doch das "verbesserte" GFT überschätzte nun die Ausmaße der Epidemien 2011/12 und 2012/13 in den USA und die Arztbesuche um mehr als 50 Prozent. Von August 2011 bis September 2013 lieferte GFT an 100 von 108 Wochen überhöhte Prognosen.
David Lazer hält die Fehler für behebbar, wenn man nur die Gewichtung der Begriffe anhand der realen Fälle neu kalibrieren würde - was noch nicht getan wurde. Dieses Versäumnis dürfte laut Lanzer der Big-Data-Hybris geschuldet sein, also dem Hochmut von Google und Co. (Klaus Taschwer, DER STANDARD, 15.3.2014)