Schlüsseltechnologie

STP032: Hochverfügbarer Softwarebetrieb


Listen Later

Die heutige Episode beschäftigt sich neben dem offensichtlichen Hauptthema auch mit Prozenten, deren Bedeutung bedacht sein sollte, und dem Verhalten guter Manager.

Deshalb sei hiermit eine Politik-Triggerwarnung ausgesprochen... aber nur eine kleine.

Shownotes
  • Schlagwort: Site Reliability Engineering (SRE)

    • Hauptziel: "Schaffung skalierbarer und hochzuverlässiger Softwaresysteme"
    • Grundkonzept: Service Level

      • SLO (Service Level Objective): selbstgewählter Indikator soll bis zu einem bestimmten Grad an 100% herangeführt werden (z.B. Zeiten, zu denen der Dienst erreichbar ist; Anteil der Anfragen, die in weniger als 1 Sekunde beantwortet werden; Anteil der Anfragen, die erfolgreich beantwortet werden)
      • SLA (Service Level Agreement): SLO, der mit dem Kunden vertraglich vereinbart ist
      • Beispiel: 99% Verfügbarkeit = bis zu 3,65 Tage Ausfall; 99,9% = bis zu 8,77 Stunden; 99,99% = bis zu 52 Minuten; 99,999% = bis zu 5,2 Minuten
      • Problem: die Unbekannten in der Gleichung

        • Known Unknowns (bekanntes Unwissen): ich weiß, dass ich etwas nicht weiß (z.B. wann meine Festplatte ausfallen wird)
        • Unknown Unknowns (unbekanntes Unwissen): ich weiß nicht mal, dass da etwas ist, was ich nicht weiß (z.B. dass meine angebliche 30-TB-Festplatte in Wahrheit nur eine 32-GB-Speicherkarte in einem großen Gehäuse ist)
        • siehe auch: zur Wortherkunft der Begriffsgruppe "(un)known (un)knowns"
        • strukturierter Einblick in Applikationen mittels Instrumentierung

          • Logging: Ereignisse innerhalb der Applikation werden als textförmiger Bericht (Log) aus der Applikation ausgeleitet und in einem Log-System durchsuchbar gemacht
          • Monitoring: Zustand der Applikation wird in Form von Messdaten quantifiziert, in einer Zeitseriendatenbank abgelegt und in Dashboards aufbereitet (Beispielbild); Messdaten entweder direkt aus der Applikation selbst oder durch ein Extraprogramm von außen erhoben
          • Alarmierung: Menschen werden benachrichtigt, wenn ein bestimmter Messwert eine bestimmte Schwelle überschreitet (oder eine Überschreitung projiziert ist, z.B. "die Festplatte läuft gerade voll und in einer Stunde ist sie komplett voll")
          • strukturierte Herangehensweisen beim Durchführen von Änderungen

            • Configuration as Code: Änderungen werden möglichst nie manuell vorgenommen, sondern es wird ein Programm geschrieben (bzw. die Konfiguration für jenes Program angepasst), das die Änderungen vornimmt; bei Problemen ist ein Zurückrollen auf den letzten funktionierenden Zustand möglich
            • Continuous Integration (CI): Änderungen an Code und Konfiguration fließen in ein System, das automatisch standardisierte Tests ausführt, um die Änderung auf Fehler zu prüfen; bei Erfolg automatische Übernahme der vorgeschlagenen Änderung in den veröffentlichten Code-Stand
            • Continuous Delivery (CD): automatisches oder stark automatisiertes Ausrollen von Änderungen an Code und Konfiguration von Testsystemen in Verifikationssysteme in Produktivsysteme
            • Rolling Upgrade: bei Systemen mit mehreren gleichartigen Komponenten werden die Komponenten nacheinander durch die neue Version ersetzt, damit das Ausrollen für den Kunden unsichtbar ist und bei Fehlern frühzeitig gestopppt werden kann
            • Canary Deployment: Ausrollen einer Änderung zunächst nur in einem kleinen Teil des Systems; bei Problemen ist nur der kleine Teil betroffen (siehe auch Ankündigungen der Form "diese Funktion ist zurzeit nur für ausgewählte Kunden verfügbar")
            • strukturierter Umgang mit Alarmen/Fehlern

              • standardisierte Abläufe ("Playbooks") für Alarme
              • Postmortem-Analyse mindestens nach signifikanten Fehlern (Was ist passiert? Was war der tatsächliche Grund? Was ist bei der Bekämpfung des Problems gut/schlecht gelaufen? Was können wir besser machen?)
              • Fehlerkultur: Das Hauptziel soll nicht sein, einen Schuldigen zu finden, sondern das Problem möglichst schnell zu beheben und dann dafür zu sorgen, dass das Problem nie wieder auftritt.
              • Parallelen zum Toyota-Produktionssystem
              • im Gespräch erwähnt (im Kontext des Gesetzesvorhabens zur Chatkontrolle):

                • Pentaradio vom Mai 2022 und ganz aktuell vom Januar 2023
                • LNP429: Endlich sind wir am Anfang angekommen
                • LNP430: Die größte Koalition aller Zeiten
                • ...more
                  View all episodesView all episodes
                  Download on the App Store

                  SchlüsseltechnologieBy Xyrillian Noises


                  More shows like Schlüsseltechnologie

                  View all
                  Freak Show by Metaebene Personal Media - Tim Pritlove

                  Freak Show

                  11 Listeners

                  Methodisch inkorrekt! by Methodisch inkorrekt!

                  Methodisch inkorrekt!

                  16 Listeners

                  Lage der Nation - der Politik-Podcast aus Berlin by Philip Banse & Ulf Buermeyer

                  Lage der Nation - der Politik-Podcast aus Berlin

                  228 Listeners

                  c’t uplink - der IT-Podcast aus Nerdistan by c’t Magazin

                  c’t uplink - der IT-Podcast aus Nerdistan

                  9 Listeners

                  Chaosradio by Chaos Computer Club Berlin

                  Chaosradio

                  7 Listeners

                  heiseshow by heise online

                  heiseshow

                  3 Listeners

                  Logbuch:Netzpolitik by Metaebene Personal Media - Tim Pritlove

                  Logbuch:Netzpolitik

                  6 Listeners

                  Jung & Naiv by Tilo Jung

                  Jung & Naiv

                  44 Listeners

                  Holger ruft an by Übermedien

                  Holger ruft an

                  2 Listeners

                  Die Wochendämmerung - Der stabile Wochenrückblick by Katrin Rönicke und Holger Klein (hauseins)

                  Die Wochendämmerung - Der stabile Wochenrückblick

                  14 Listeners

                  Sicherheitshalber by Der Podcast zur sicherheitspolitischen Lage in Deutschland, Europa und der Welt.

                  Sicherheitshalber

                  46 Listeners

                  Bit-Rauschen: Der Prozessor-Podcast von c’t by c't Magazin

                  Bit-Rauschen: Der Prozessor-Podcast von c’t

                  0 Listeners

                  Legion by rbb | NDR | Undone

                  Legion

                  7 Listeners

                  Haken dran – das Social-Media-Update der c't by Gavin Karlmeier

                  Haken dran – das Social-Media-Update der c't

                  2 Listeners

                  Passwort - der Podcast von heise security by Dr. Christopher Kunz, Sylvester Tremmel

                  Passwort - der Podcast von heise security

                  3 Listeners