Cloud-Systeme sind nicht automatisch robust gegen Störungen, und es sind meist Softwareprobleme, die zu Ausfällen führen, nicht physische Defekte. Solche Ausfälle betreffen selten den gesamten Anbieter, und vollständige Ausfälle sind eher unüblich. Häufiger treten teilweise Ausfälle, Verschlechterungen des Dienstes oder spezifische lokale Probleme auf. Für das Infrastruktur- und Betriebsteam (I&O) im Unternehmen ist es wichtig, die typischen Merkmale und Ursachen für Cloud-Ausfälle zu verstehen. Dazu zählt, dass Ausfälle meist nur einen Teil des Services betreffen, oft vorübergehend sind oder zu einer nicht sofort erkennbaren Verschlechterung der Leistung führen. Es gibt auch Unterschiede in der Ausfallresistenz zwischen verschiedenen Cloud-Anbietern.
Cloud Ausfall: Tipps für mehr Widerstandsfähigkeit
Cloud-Infrastrukturen sollten mindestens so widerstandsfähig sein wie lokale Systeme, vorausgesetzt, das I&O-Team nutzt sie auf die richtige Weise. Die Analysten von „Gartner“, einem Unternehmen für kompetentes Wissen in der IT, raten I&O-Führungskräften, sich auf neun Schlüsselprinzipien zu konzentrieren, um die Widerstandsfähigkeit ihrer Cloud-Systeme zu stärken.
1. Geschäftsausrichtung:
Abstimmung der Ausfallsicherheitsanforderungen auf die Geschäftsanforderungen. Ohne diese Ausrichtung auf die Anforderungen werden die Teams die Erwartungen an die Ausfallsicherheit nicht erfüllen oder die Ausgaben überschreiten.
2. Risikobasierter Ansatz:
Verfolgen Sie einen risikobasierten Ansatz für die Resilienzplanung, der über katastrophale Ereignisse hinausgeht. Legen Sie den Schwerpunkt stärker auf die häufigeren Ausfälle, die Unternehmen besser abfedern können.
3. Abhängigkeitsmapping:
Erstellen Sie Abhängigkeitsdiagramme, die alle Middleware-Komponenten, Datenbanken, Cloud-Dienste und Integrationspunkte abbilden, damit sie für die Ausfallsicherheit konzipiert und konfiguriert und sowohl in die Zuverlässigkeits- als auch in die Notfallwiederherstellungsplanung einbezogen werden können.
4. Kontinuierliche Verfügbarkeit:
Der Ansatz der kontinuierlichen Verfügbarkeit zielt darauf ab, Anwendungen, Dienste und Daten zu jeder Zeit und auf jedem Serviceniveau verfügbar zu halten, ohne Ausfallzeiten und mit begrenzten Auswirkungen während eines Fehlerereignisses.
5. Ausfallsicherheit durch Design:
Die Anwendung selbst sollte von vornherein widerstandsfähig sein. Die Ausfallsicherheit der Infrastruktur allein reicht nicht aus, um die von den Endbenutzern erwarteten Dienste ohne Ausfallzeiten zu liefern.
6. DR-Automatisierung:
Die Implementierung einer vollständig (oder nahezu vollständig) automatisierten Disaster Recovery (DR) – entweder durch unternehmenseigene Tools oder durch Cloud-native DR-Tools von Drittanbietern – bildet die Grundlage für die Einhaltung aggressiver Wiederherstellungszeitziele (RTOs) und ermöglicht routinemäßige DR-Tests.
7. Ausfallsicherheitsstandards:
Führen Sie Resilienzstandards ein, die über Architektur und DR hinausgehen. Ausfallsichere Systeme erfordern, dass sich die Teams auf Qualität, Automatisierung und kontinuierliche Verbesserung konzentrieren und die Qualität über den gesamten Lebenszyklus einer Anwendung hinweg durchsetzen.
8. Bevorzugen Sie Cloud-native Lösungen:
Cloud-Anbieter verfügen über ein breites Spektrum an Lösungen, die zur Verbesserung der Ausfallsicherheit eingesetzt werden können. Wo dies möglich ist, sollten I&O-Führungskräfte diese Lösungen nutzen, anstatt zu versuchen, ihre eigenen Alternativen zu erfinden und noch mehr Komplexität hinzuzufügen.
9. Fokus auf Geschäftsfunktionen:
Anstatt sich darauf zu beschränken, nur gleichwertige Lösungen zu ersetzen, sollten Sie Alternativen wie leichtgewichtige IT-Alternativen oder leichtgewichtige Anwendungssubstitutionen prüfen, die nur das erforderliche Minimum an geschäftskritischen Funktionen bieten.