Zwischen Ausfall und Erholung
2023.11.07Bei Cloudflare kam es vor Kurzem zu einem weltweiten Ausfall des Control Panels und der Analysefunktionen. Die Post-Mortem-Analyse ist sehr lesenswert: Die menschliche Komponente kommt in solchen Berichten oft zu kurz, und der Versuch, einen schwerwiegenden Ausfall zu beheben, wenn die Leute vor Ort übermüdet sind, führt nur zu vermeidbaren Fehlern.
Deshalb haben Unternehmen, die kritische Dienste und hohe Verfügbarkeit anbieten, in der Regel entsprechende Notfallpläne für katastrophale Ausfälle. Mitarbeiter:innen arbeiten und schlafen in Schichten, um auftauchende Probleme zu entschärfen. Und das Wichtigste bei der Umsetzung solcher Notfallpläne ist, dass, wenn die Kacke am Dampfen ist, ein Drittel der Mitarbeiter:innen nach Hause geschickt wird, damit sie in 10–20 Stunden zurückkommen können, um dann die abzulösen, die noch da sind.
Wenn das nicht gemacht wird, sind alle Bemühungen in der Regel zum Scheitern verurteilt, nur halt später.