Daten sammeln, wenn es urknallt

31. Jänner 2008, 11:59
9 Postings

Beim größten Wissenschafts- Experiment aller Zeiten stellen Physiker den Urknall nach - Die dabei gesammelten Datenmengen sind kaum zu bewältigen

Beim größten Wissenschaftsexperiment aller Zeiten am Kernforschungszentrum CERN stellen Physiker den Urknall nach. Die dabei anfallende Datenmenge braucht einen Speicherplatz von zwölf Petabyte pro Jahr. Das ist ein CD-Turm von 20 Kilometer Höhe. Um die Datenmengen zu bewältigen, will man die Speicherkapazität von zehntausenden Computern verknüpfen.

*****

Es soll das größte Experiment der Wissenschaftsgeschichte werden. Und es wird mit einem großen Knall beginnen - eigentlich knallt es sogar 40 Millionen Mal zugleich. Im Large Hadron Collider (LHC), einem 27 Kilometer langen unterirdischen Teilchenbeschleuniger, rund 100 Meter unter der Erde Genfs am Europäischen Kernforschungszentrum CERN, fahnden Forscher nach dem "Gottesteilchen".

Um dem in Fachkreisen besser als Higgs-Boson bekannten Elementarteilchen auf die Spur zu kommen, müssen die Forscher Protonen auf Fastlichtgeschwindigkeit beschleunigen - und dann gezielt ineinanderkrachen lassen. 40 Millionen Mal in einer einzigen Sekunde kommt es zu so einem Miniurknall. Mit der dabei entstehenden Datenmenge stellt der LHC bisher nicht dagewesene Anforderungen an die Computer-Infrastruktur.

"Unser Detektor hat 150 Millionen Sensoren, das, multipliziert mit den Zusammenstößen in der Sekunde, ergibt Datenmengen, die so unvorstellbar groß sind, dass man keine Chance hat, sie zu speichern - geschweige denn zu rechnen", sagt Gerhard Walzel, Projektleiter für Computing am Institut für Hochenergiephysik der Österreichischen Akademie der Wissenschaften.

Selbst nach einer automatischen Vorsortierung per Elektronik brauchen die Daten noch einen Speicherplatz von rund zwölf Petabyte pro Jahr. "Das ist eine Eins mit 15 Nullen", sagt Walzel. Man würde etwa 100.000 Prozessoren benötigen, um die Daten in einer angemessenen Zeit analysieren zu können.

Viel zu teuer, entschieden die CERN-Forscher. Ihre Idee: Anstatt die Rechnerleistung vor Ort auszubauen, könnte man doch einfach die weltweit verfügbaren Prozessor- und Speicherkapazitäten von Zehntausenden Computern zu einem Daten-netzwerk zusammenfassen.

Neues Rechenzentrum

Jedes Land, das bei den LHC-Experimenten mitmischen will, muss, seinem Forschungsanteil entsprechend, IT-Infrastruktur in das Grid einbringen. "Genau deshalb bauen wir hier in Wien gerade ein neues Rechenzentrum auf", sagt Walzel. "Das ist quasi unsere Eintrittkarte zum LHC." Mit ihren 50 Physikern bräuchten sie aber nur einen vergleichsweise kleinen Computercluster aufbauen, so Walzel. In der Sprache der Grid-Planer handelt es sich um ein Tier-2-Zentrum.

CERN selbst hat in dieser Reihenfolge die Stufe Tier-0 - und damit die Aufgabe, die Daten aus den Versuchen zu selektieren, zu speichern, zu rekonstruieren - und dann auf die nächstkleineren Rechenzentren im Grid zu verteilen. Diese wiederum verteilen die Daten weiter - oder berechnen auf Anfrage gleich vor Ort Simulationen und schicken die Ergebnisse zurück.

"Man holt sich die Daten nicht mehr, man benutzt über das Grid einfach den Computer, der den Daten am nächsten ist und rechnet dort", sagt Wolfgang Schreiner, Grid-Computing-Experte von der Uni Linz. So werde Kopieren vermieden. "Durch die Verfügbarkeit des Grid werden die Möglichkeiten, die die Informationstechnologien für Wissenschaft und Industrie bieten, in einem nie dagewesenen Umfang erweitert", jubelt Jens Volkert, Vorstand des Instituts für Graphische und Parallele Datenverarbeitung der Uni Linz und einer der Grid-Computing-Pioniere.

In Österreich wird seit April 2004 am Austrian Grid gearbeitet, so Volkert. Derzeit laufen in diesem Zusammenschluss rund 500 Prozessoren, die mehr als 600 Gigaflops bringen. Die Pilotphase habe man erfolgreich abgeschlossen - in der seit Anfang 2007 laufenden Phase zwei gehe es nun darum, nachhaltige Grid-Strukturen aufzubauen. Das neue Rechenzentrum am Institut für Hochenergiephysik sei daher wichtig für die Rechnerinfrastruktur.

Anwendungsmöglichkeiten

Die Anwendungsmöglichkeiten des "Rechnens der Zukunft" beschränken sich nicht nur auf die Hochenergiephysik. Ob Materialwissenschaft, Genomforschung, Meteorologie, Astronomie oder theoretische Chemie - überall dort, wo die unterschiedlichen Berechnungs-Programme keine oder kaum Zwischenergebnisse austauschen müssen, funktioniere Grid Computing, sagt Volkert. Das ist bei allen Anwendungen der Fall, bei denen sich die Datensätze aufteilen und separat berechnen lassen - so kann die Analyse mit identischen Programmen auf unterschiedlichen Rechnern durchgeführt werden.

"Uns kommt es bei den Berechnungen oft nicht darauf an, ob sie eine Stunde früher oder später fertig sind", sagt Walzel. Wir brauchen auch keine komplexen und teuren Computer - wichtig ist nur der geringe Stromverbrauch. Die Prozes-soren, die Walzel und seine Kollegen verbauen, gleichen daher denen von normalen Heim-PCs, außer dass sie kaum grafikfähig sind. "Zum Teil sind die Rechner bereits installiert", sagt Walzel. Rund ein Drittel des geplanten Ausbaus werde zurzeit Tests unterzogen, um die Program-me zu optimieren.

Am Ende des Jahres, so der Physiker, werden rund 80 Prozent ihres neuen Rechenzentrums einsatzbereit sein. "Das hängt aber im Wesentlichen vom Bedarf ab: Wenn der Detektor am CERN weniger Daten liefert, kämen wir zunächst mit einer geringeren Ausbaustufe aus." (Denis Dilba/DER STANDARD, Printausgabe, 30.1.2008)

  • Um über die Entstehung der Welt mehr zu erfahren, führt man am CERN ein Großexperiment durch - und vernetzt zur Datenerfassung zahllose Rechner.
    illustration: der standard/fatih

    Um über die Entstehung der Welt mehr zu erfahren, führt man am CERN ein Großexperiment durch - und vernetzt zur Datenerfassung zahllose Rechner.

Share if you care.