
Sign up to save your podcasts
Or
SRE (Site Reliability Engineering) ist ein Ansatz, bei dem Softwareentwickler aktiv die Verantwortung für Systemstabilität und Skalierbarkeit übernehmen. Gast Andy Grunwald (Engineering Manager bei Cloudflare und Co-Host des "Engineering Kiosk") erklärt den Paradigmenwechsel: Statt wie klassische Ops-Teams primär reaktiv auf Ausfälle zu reagieren, gestalten SREs Systeme von Grund auf resilient.
Zentrale Elemente sind Service Level Objectives (SLOs), die festlegen, wie stabil ein Service sein muss, und Error Budgets, die akzeptable Ausfallzeiten definieren. Bei Problemen folgt SRE einem strukturierten Incident-Management-Prozess.
Der kulturelle Aspekt ist entscheidend: SRE verschiebt den Fokus von kurzfristiger Fehlerbehebung hin zu langfristiger Systemstabilität – etwa durch Automatisierung, Monitoring und gezielte Resilienztests (Chaos Engineering). Letztlich geht es darum, Betrieb und Entwicklung näher zusammenzubringen, ohne in klassische "Wir gegen die Ops"-Muster zu verfallen.
------
Korrekturen zur Folge
------
Links zur Folge
https://andygrunwald.com/blog/my-all-time-high-articles/
The Phoenix Project https://www.amazon.de/Phoenix-Project-DevOps-Helping-Business/dp/0988262592
The Unicorn Project https://www.amazon.de/Unicorn-Project-Developers-Disruption-Thriving/dp/1942788762
Google SRE books: https://sre.google/books/
Exponential Backoff And Jitter https://aws.amazon.com/de/blogs/architecture/exponential-backoff-and-jitter/
SRE fundamentals: SLIs, SLAs and SLOs
https://cloud.google.com/blog/products/devops-sre/sre-fundamentals-slis-slas-and-slos?hl=en
Pagerduty Incident Response https://response.pagerduty.com/
Engineering Kiosk Podcasts: https://engineeringkiosk.dev/
Andy Grunwald LinkedIn https://www.linkedin.com/in/andy-grunwald-09aa265a/
------
Einfach Komplex ist ein Podcast von Heisenware. Alle Infos und Kontakte findest du im Linktree: https://linktr.ee/heisenware
------
Andy, Burkhard & Gerrit sprechen heute über:
(00:00:00) Intro Andy
(00:03:00) Entstehung, Einordnung und Abgrenzung zu DevOps
(00:27:00) SRE in der Praxis
(00:42:00) Service Level Agreements und Verfügbarkeit
(00:54:00) Kultur, Ausfälle und Übungen für den Notfall
(01:08:00) SRE Summary
(01:12:00) Weitere Ressourcen und Kontakt Andy
SRE (Site Reliability Engineering) ist ein Ansatz, bei dem Softwareentwickler aktiv die Verantwortung für Systemstabilität und Skalierbarkeit übernehmen. Gast Andy Grunwald (Engineering Manager bei Cloudflare und Co-Host des "Engineering Kiosk") erklärt den Paradigmenwechsel: Statt wie klassische Ops-Teams primär reaktiv auf Ausfälle zu reagieren, gestalten SREs Systeme von Grund auf resilient.
Zentrale Elemente sind Service Level Objectives (SLOs), die festlegen, wie stabil ein Service sein muss, und Error Budgets, die akzeptable Ausfallzeiten definieren. Bei Problemen folgt SRE einem strukturierten Incident-Management-Prozess.
Der kulturelle Aspekt ist entscheidend: SRE verschiebt den Fokus von kurzfristiger Fehlerbehebung hin zu langfristiger Systemstabilität – etwa durch Automatisierung, Monitoring und gezielte Resilienztests (Chaos Engineering). Letztlich geht es darum, Betrieb und Entwicklung näher zusammenzubringen, ohne in klassische "Wir gegen die Ops"-Muster zu verfallen.
------
Korrekturen zur Folge
------
Links zur Folge
https://andygrunwald.com/blog/my-all-time-high-articles/
The Phoenix Project https://www.amazon.de/Phoenix-Project-DevOps-Helping-Business/dp/0988262592
The Unicorn Project https://www.amazon.de/Unicorn-Project-Developers-Disruption-Thriving/dp/1942788762
Google SRE books: https://sre.google/books/
Exponential Backoff And Jitter https://aws.amazon.com/de/blogs/architecture/exponential-backoff-and-jitter/
SRE fundamentals: SLIs, SLAs and SLOs
https://cloud.google.com/blog/products/devops-sre/sre-fundamentals-slis-slas-and-slos?hl=en
Pagerduty Incident Response https://response.pagerduty.com/
Engineering Kiosk Podcasts: https://engineeringkiosk.dev/
Andy Grunwald LinkedIn https://www.linkedin.com/in/andy-grunwald-09aa265a/
------
Einfach Komplex ist ein Podcast von Heisenware. Alle Infos und Kontakte findest du im Linktree: https://linktr.ee/heisenware
------
Andy, Burkhard & Gerrit sprechen heute über:
(00:00:00) Intro Andy
(00:03:00) Entstehung, Einordnung und Abgrenzung zu DevOps
(00:27:00) SRE in der Praxis
(00:42:00) Service Level Agreements und Verfügbarkeit
(00:54:00) Kultur, Ausfälle und Übungen für den Notfall
(01:08:00) SRE Summary
(01:12:00) Weitere Ressourcen und Kontakt Andy
5 Listeners
2 Listeners
0 Listeners
2 Listeners
29 Listeners
0 Listeners
3 Listeners
8 Listeners
1 Listeners
0 Listeners
16 Listeners
5 Listeners
7 Listeners
12 Listeners
3 Listeners