
Sign up to save your podcasts
Or


Was passiert eigentlich in einem komplexen System wie der E-Commerce-Plattform von Zalando, wenn ein Fehler auftritt? Um diese Frage zu beantworten, sprechen wir mit Heinrich Hartmann, Senior Principal SRE bei Zalando, über die Disziplin der Observability.
Es geht darum, nicht nur zu wissen, dass etwas kaputt ist, sondern warum. Das Fundament dafür bilden die drei Säulen: Logs (Was ist passiert?), Metriken (Wie schnell war es?) und Traces (Wo war es?). Heinrich erklärt, wie man mit Distributed Tracing eine einzelne Anfrage auf ihrer Reise durch Dutzende von Microservices verfolgt, um die Nadel im Heuhaufen zu finden.
Wir diskutieren außerdem Best Practices für Logging, wie man im Ernstfall bei einem Incident reagiert und wie man mit SLOs (Service Level Objectives) und cleveren Alerts von einem reaktiven zu einem proaktiven Umgang mit Fehlern kommt. Ein kurzer Blick auf den Standard OpenTelemetry rundet das Gespräch ab.
Links zur Folge
Heinrichs Website https://heinrichhartmann.com/
Heinrich auf LinkedIn https://de.linkedin.com/in/heinrich-hartmann-b524a076
Conversations about Software Engineering Podcast mit Heinrich https://www.case-podcast.org/
OpenTelemetry https://opentelemetry.io/
------
Einfach Komplex ist ein Podcast von Heisenware.
Alle Infos und Kontakte findest du
unter heisenware.com
und im Linktree https://linktr.ee/heisenware
------
Heinrich, Burkhard und Gerrit sprechen heute über:
(00:00:00) Intro und Vorstellung Heinrich
(00:02:00) Logs, Metriken, Traces
(00:10:00) Distributed Tracing
(00:32:00) Logging Best Practices
(00:37:00) Verfügbarkeit & Incident Response
(00:48:00) SLOs, Alerts & Incident Detection
(00:58:00) OpenTelemetry
(01:01:00) Ausblick
By Dr. Burkhard Heisen, Gerrit Meyer, HeisenwareWas passiert eigentlich in einem komplexen System wie der E-Commerce-Plattform von Zalando, wenn ein Fehler auftritt? Um diese Frage zu beantworten, sprechen wir mit Heinrich Hartmann, Senior Principal SRE bei Zalando, über die Disziplin der Observability.
Es geht darum, nicht nur zu wissen, dass etwas kaputt ist, sondern warum. Das Fundament dafür bilden die drei Säulen: Logs (Was ist passiert?), Metriken (Wie schnell war es?) und Traces (Wo war es?). Heinrich erklärt, wie man mit Distributed Tracing eine einzelne Anfrage auf ihrer Reise durch Dutzende von Microservices verfolgt, um die Nadel im Heuhaufen zu finden.
Wir diskutieren außerdem Best Practices für Logging, wie man im Ernstfall bei einem Incident reagiert und wie man mit SLOs (Service Level Objectives) und cleveren Alerts von einem reaktiven zu einem proaktiven Umgang mit Fehlern kommt. Ein kurzer Blick auf den Standard OpenTelemetry rundet das Gespräch ab.
Links zur Folge
Heinrichs Website https://heinrichhartmann.com/
Heinrich auf LinkedIn https://de.linkedin.com/in/heinrich-hartmann-b524a076
Conversations about Software Engineering Podcast mit Heinrich https://www.case-podcast.org/
OpenTelemetry https://opentelemetry.io/
------
Einfach Komplex ist ein Podcast von Heisenware.
Alle Infos und Kontakte findest du
unter heisenware.com
und im Linktree https://linktr.ee/heisenware
------
Heinrich, Burkhard und Gerrit sprechen heute über:
(00:00:00) Intro und Vorstellung Heinrich
(00:02:00) Logs, Metriken, Traces
(00:10:00) Distributed Tracing
(00:32:00) Logging Best Practices
(00:37:00) Verfügbarkeit & Incident Response
(00:48:00) SLOs, Alerts & Incident Detection
(00:58:00) OpenTelemetry
(01:01:00) Ausblick

7 Listeners

2 Listeners

9 Listeners

10 Listeners

1 Listeners

0 Listeners

0 Listeners

8 Listeners

97 Listeners

25 Listeners

3 Listeners

3 Listeners

28 Listeners

0 Listeners

0 Listeners