Einfach Komplex – Der Software- und IT-Podcast

Site Reliability Engineering (SRE) mit Andy Grunwald vom Engineering Kiosk #81


Listen Later

SRE (Site Reliability Engineering) ist ein Ansatz, bei dem Softwareentwickler aktiv die Verantwortung für Systemstabilität und Skalierbarkeit übernehmen. Gast Andy Grunwald (Engineering Manager bei Cloudflare und Co-Host des "Engineering Kiosk") erklärt den Paradigmenwechsel: Statt wie klassische Ops-Teams primär reaktiv auf Ausfälle zu reagieren, gestalten SREs Systeme von Grund auf resilient.

Zentrale Elemente sind Service Level Objectives (SLOs), die festlegen, wie stabil ein Service sein muss, und Error Budgets, die akzeptable Ausfallzeiten definieren. Bei Problemen folgt SRE einem strukturierten Incident-Management-Prozess.

Der kulturelle Aspekt ist entscheidend: SRE verschiebt den Fokus von kurzfristiger Fehlerbehebung hin zu langfristiger Systemstabilität – etwa durch Automatisierung, Monitoring und gezielte Resilienztests (Chaos Engineering). Letztlich geht es darum, Betrieb und Entwicklung näher zusammenzubringen, ohne in klassische "Wir gegen die Ops"-Muster zu verfallen.

------

Korrekturen zur Folge

  1. Beim Thema Incidents wird gesagt, dass die Metrik MTRR heißt. Sie heißt jedoch MTTR. Siehe https://de.wikipedia.org/wiki/Mean_Time_To_Recover
  2. Bei der Story mit dem Flugzeug und den Löchern im Flügel sprechen wir vom "Confirmation Bias". Tatsächlich handelt es sich um das "Survivorship Bias". Siehe https://en.wikipedia.org/wiki/Survivorship_bias

------

Links zur Folge

https://andygrunwald.com/blog/my-all-time-high-articles/

The Phoenix Project https://www.amazon.de/Phoenix-Project-DevOps-Helping-Business/dp/0988262592

The Unicorn Project https://www.amazon.de/Unicorn-Project-Developers-Disruption-Thriving/dp/1942788762

Google SRE books: https://sre.google/books/

Exponential Backoff And Jitter https://aws.amazon.com/de/blogs/architecture/exponential-backoff-and-jitter/

SRE fundamentals: SLIs, SLAs and SLOs

https://cloud.google.com/blog/products/devops-sre/sre-fundamentals-slis-slas-and-slos?hl=en

Pagerduty Incident Response https://response.pagerduty.com/

Engineering Kiosk Podcasts: ⁠https://engineeringkiosk.dev/

Andy Grunwald LinkedIn https://www.linkedin.com/in/andy-grunwald-09aa265a/

------

Einfach Komplex ist ein Podcast von Heisenware. Alle Infos und Kontakte findest du im Linktree: ⁠⁠https://linktr.ee/heisenware⁠⁠

------

Andy, Burkhard & Gerrit sprechen heute über:

(00:00:00) Intro Andy

(00:03:00) Entstehung, Einordnung und Abgrenzung zu DevOps

(00:27:00) SRE in der Praxis

(00:42:00) Service Level Agreements und Verfügbarkeit

(00:54:00) Kultur, Ausfälle und Übungen für den Notfall

(01:08:00) SRE Summary

(01:12:00) Weitere Ressourcen und Kontakt Andy

...more
View all episodesView all episodes
Download on the App Store

Einfach Komplex – Der Software- und IT-PodcastBy Heisenware, Dr. Burkhard Heisen, Gerrit Meyer


More shows like Einfach Komplex – Der Software- und IT-Podcast

View all
c’t uplink - der IT-Podcast aus Nerdistan by c’t Magazin

c’t uplink - der IT-Podcast aus Nerdistan

5 Listeners

heiseshow by heise online

heiseshow

2 Listeners

Der Apfelplausch by Lukas Gehrer und Roman Van Genabith

Der Apfelplausch

0 Listeners

kurz informiert by heise online by heise online

kurz informiert by heise online

2 Listeners

Finanzfluss Podcast by Finanzfluss

Finanzfluss Podcast

29 Listeners

Mac & i - der Apple-Podcast by Mac & i

Mac & i - der Apple-Podcast

0 Listeners

Wegen guter Führung - Der ehrliche Führungspodcast by Harvard Business manager

Wegen guter Führung - Der ehrliche Führungspodcast

3 Listeners

Geld ganz einfach - von Saidi by Finanztip

Geld ganz einfach - von Saidi

8 Listeners

Bit-Rauschen: Der Prozessor-Podcast von c’t by c't Magazin

Bit-Rauschen: Der Prozessor-Podcast von c’t

1 Listeners

F.A.Z. Künstliche Intelligenz by Frankfurter Allgemeine Zeitung

F.A.Z. Künstliche Intelligenz

0 Listeners

{ungeskriptet} - Gespräche, die dich weiter bringen by Ben Berndt

{ungeskriptet} - Gespräche, die dich weiter bringen

16 Listeners

KI-Update – ein heise-Podcast by Isabel Grünewald, heise online

KI-Update – ein heise-Podcast

5 Listeners

KI verstehen by Deutschlandfunk

KI verstehen

7 Listeners

Der KI-Podcast by ARD

Der KI-Podcast

12 Listeners

Passwort - der Podcast von heise security by Dr. Christopher Kunz, Sylvester Tremmel

Passwort - der Podcast von heise security

3 Listeners