Schaltsekunde löste Chaos bei Linux-Servern aus

2. Juli 2012, 10:20
  • Nicht alle Systeme kommen mit der am 1. Juli eingeschobenen Schaltsekunde zurecht.
    foto: apa

    Nicht alle Systeme kommen mit der am 1. Juli eingeschobenen Schaltsekunde zurecht.

Web-Dienste wie FourSquare und Reddit von Problem mit eingeschobener Sekunde betroffen

Die am 1. Juli eingeschobene Schaltsekunde hat am Wochenende unter Linux zu massiven Problemen geführt. Bei mehreren Web-Diensten, die auf Linux-Servern laufen, kam es infolge dessen vorübergehend zu Ausfällen.

Zahlreiche Web-Dienste betroffen

Von den Problemen betroffen waren laut Wired unter anderem FourSquare, Yelp, StumbleUpon, LinkedIn und Reddit. Bei Mozilla und Debian wurden Auslastungsspitzen bei Servern verzeichnet, sodass mehrere Rechner nicht mehr auf Pings reagierten. Laut Mozilla konnte das Problem durch einen Neustart oder das Neusetzen der Uhrzeit behoben werden.

Problem im Linux-Kernel

Die Probleme treten laut heise in den Linux-Kernelversionen 2.6.26 bis 3.3 sowie bei Applikationen auf Java-Basis auf. Die durch das Network Time Protocol (NTP) eingefügte Schaltsekunde führt demnach zu einer Deadlock-Situation. Dadurch kommt es zu einer dauerhaften Auslastung der CPU und das Betriebssystem reagiert nicht mehr.

Google vorbereitet

Einige Dienste waren darauf besser vorbereitet, zumal die Problematik nicht neu ist. So beugt Google durch eine Modifizierung der NTP-Server - "Leap Smear" genannt - vor. Anstatt die Schaltsekunde auf einmal einzufügen, kommen nach und nach Millisekunden hinzu. Bei diesen kleineren Änderungen kommt die Systemzeit nicht außer Takt. Dass Google auf die Problematik bereits vor Monaten aufmerksam gemacht hat, ist anderen Web-Diensten offenbar entgangen. (red, derStandard.at, 2.7.2012)

Kommentar posten
Posting 1 bis 25 von 173
1 2 3 4
wenn ich da an die Panikmache rund um Y2k denke

und wie viele meinten unter linux könne das niemals passieren ...

;-)

Dadurch kommt es zu einer dauerhaften Auslastung der CPU???

wird da nicht Deadlock mit Endless Loop vermischt? Endless Loop verursacht eine 100%tige Auslastung des Prozessors (bei Dual oder mehr Core aber nur dieses Prozesses, wo der Thread gerade läuft), Deadlock blockiert die jeweiligen Threads (bzw. die blockieren sich gegenseitig), aber die CPU ist noch ansprechbar. Wenn natürlich der blockierte Thread für eine Serveranwendung lebensnotwendig ist ist das natürlich a blede Gschicht

Interessante Auswirkung

Hetzner hatte in der Nacht auf den 01. Juli einen Anstieg des IT-Stromverbrauchs um ein Megawatt und empfiehlt die Server auf CPU-Auslastung zu überprüfen und ggf. neu zu starten.

Wir betreiben hier ca. 500 Linux-Server, vorwiegend Red Hat Enterprise, mit teilweise hochkritischen Applikationen, und hatten keine Probleme.

Dann sind sie wohl der Arbeitskollege von Zwei Und Vierzig...

Zitat: "weit über 500 Linux Installationen - Quer durch die Bank - Ubuntu, Debian und hauptsächlich RedHat ..." :-))

Komisch,

und gar keine Posts dass Linux viel besser ist als Windows ... hmmm ... :)

linux ist viel besser als windows!

muss man das noch extra erwähnen?

bei windows bin ich froh, wenn die minuten bei der uhrzeit stimmen. ;-)

Besser wofür?
Dieser ewige Flamewar - Microsoft gegen Linux - ist doch Schwachsinn. Es kommt nur auf die Anwendung an. Einen Apache/Tomcat/JBoss oder eine Oracle-DB würde ich nicht auf Windows betreiben.

Im Office-Bereich (Desktop und Backend) macht Windows aber durchaus Sinn.

Mario Sedlak
Mario Sedlak
141
Schaltjahre, Sommerzeit, Schaltsekunden

Die Programmierer - und Tester! - bekommen es einfach nicht hin. :-(

Komisch ...

Ich betreue weit über 500 Linux Installationen - Quer durch die Bank - Ubuntu, Debian und hauptsächlich RedHat ... hatte aber keinen einzigen Ausfall.

Bzw. ein Server hat heute Morgen gegen 7Uhr unbegründet rebootet - ob die Schaltsekunde der Auslöser war konnte ich nicht mehr eruieren.

Wahnsinn und weiter, betreiben Sie zufällig darauf

auch was ernsthaftes?

Wer z.b. einen Tomcat am laufen hat der hat es sicher gemerkt.

Ja, klar, er lässt sicher 500 Rechner nur aus Spaß an der Freude laufen und weil der Strom im Rechenzentrum so billig ist... ganz sicher...

500 Linux Installationen != 500 physische Server

Noch nie was von Virtualisierung etc. gehört?!

Ich kann jetzt auch ganz geschwind, ein paar Hundert "Server" anlegen...

Auch 500 virtuelle Server betreibt man nicht zum Spaß; es ist halt auch trotz Verwaltungstools nicht ganz ohne Aufwand, schließlich sollen die Dinger ja nicht nur einfach laufen sondern auch irgendwas tun - genau wie physische Rechner.

Bei mir in der Firma versuchen wir wenn möglich auch unter 100 Containern/Instanzen pro Standort zu bleiben (HPC-Cluster nicht mitgezählt, aber da wird sowieso nicht virtualisiert).

Auch wir hatten keinen einzigen Ausfall oder irgendwelche merkwürdig erhöhten CPU-Auslastungen, obwohl wir praktisch nur Debian Stable fahren, welches ja lt. Heise betroffen sein soll.

Mit was ernsthaftem meine ich etwas

mehr als nur Tante Mitzis Apache Web Server mit 2 Visits am Tag. Sondern ein richtig cooles Cluster System das HA ist und wo net alle Dienste auf einem Hefn laufen. Glauben Sie mir, dann hätten Sie das wirklich gemerkt wenn es um was gehen würde und sie tausende Visits in der Sekunde haben. Denn dann macht es sich sehr wohl bemerkbar wenn die Load mal oben ist.

Wieviele davon haben die größe von reddit oder linkedin?

Gibt leider viele zu wenige Bugs dieser Art, und diese sind viel zu harmlos.

Mein Gott, was damals Y2k für Zaster in die Branche spülte, das war schon was.

Hier hat sich jemand die Mühe gemacht und nachgesehen, was genau passiert: http://www.heise.de/open/news... 0683/read/

Es dürfte übrigens nur der NTP-Daemon betroffen sein und nicht ntpdate, das regelmässig von cron gestartet wird.

ntpdate machts doch eh irgendwie deltamäßig

also keine großen Sprünge rein, aber will mann das bei einem Server? (zb DB)

ntpdate macht ab 0.5 Sekunden (default) Abweichung einen Sprung:

1 Jul 00:01:13 ntpdate[30941]: adjust time server 193.6.241.71 offset -0.072898 sec
1 Jul 02:01:09 ntpdate[1090]: step time server 85.254.216.1 offset -1.066766 sec
1 Jul 04:01:10 ntpdate[3684]: adjust time server 194.177.210.54 offset -0.100495 sec

sehr gut

hab mich schon gefragt warum das überhaupt zu problemen führt...
nur ist mir nicht ganz klar, warum das wegen dieser zusätzlichen sekunde passiert und bei anderen zeitänderungen die stattfinden nicht.
müßte ja zb. auch beim einfügen des 29.dezember passieren bzw. werden ja öfters sekunden am jahresende hinzugefügt.

du meinst wohl 29. februar nicht dezember? ;-)
aber der 29. februar wird ja nicht etrxa unerwartet eingefügt, der ist schon vorher vorhanden.

naja, öfter.
das letzte mal wars 2008.

Kommentar posten
Posting 1 bis 25 von 173
1 2 3 4

Die Kommentare von Usern und Userinnen geben nicht notwendigerweise die Meinung der Redaktion wieder. Die Redaktion behält sich vor, Kommentare, welche straf- oder zivilrechtliche Normen verletzen, den guten Sitten widersprechen oder sonst dem Ansehen des Mediums zuwiderlaufen (siehe ausführliche Forenregeln), zu entfernen. Der/Die Benutzer/in kann diesfalls keine Ansprüche stellen. Weiters behält sich die derStandard.at GmbH vor, Schadenersatzansprüche geltend zu machen und strafrechtlich relevante Tatbestände zur Anzeige zu bringen.