Wie behält man eigentlich den Überblick, wenn Data Science Services in Produktion laufen? In dieser Folge sprechen Sebastian und Michelle darüber, wie man einen sinnvollen Monitoring-Stack aufsetzt – von Logs und Metriken bis hin zu Alerts und Dashboards. Wir schauen uns Tools wie Prometheus, Grafana, Loki und ELK an und klären, worin sie sich unterscheiden. Außerdem geht's um Best Practices fürs Alerting, sinnvolle Feedbackschleifen und die Frage, wann und wie man Monitoring in den Entwicklungsprozess integriert.
Ziel von Monitoring: schnelle Feedbackschleifen zwischen Entwicklung und ProduktionUnterschied zwischen CI/CD und Monitoring, letztere liefert Feedback nach dem DeploymentPlanung des Monitorings idealerweise schon bei der Architektur berücksichtigenÜberblick über Monitoring-Ziele: Services, Infrastruktur, Daten, ModelleVergleich Cloud vs. Self-Hosted Monitoring (Aufwand, Flexibilität, Kosten)Wichtige Tools: Prometheus/Grafana/Loki, ELK-Stack, Nagios/Icinga/Zabbix, Great Expectations, Redash/MetabaseBest Practices fürs Alerting: sinnvolle Schwellenwerte, Vermeidung von "Alert Fatigue", klare ZuständigkeitenFazit: Monitoring braucht klare Ziele, sinnvolle Alerts und gute Visualisierung, um echten Mehrwert zu liefern#23: Unsexy aber wichtig: Tests und Monitoring https://www.podbean.com/ew/pb-vxp58-13f311aPrometheus – Open-Source Monitoring-System: https://prometheus.ioGrafana – Visualisierung von Metriken und Logs: https://grafana.comLoki – Log-Aggregation für Grafana: https://grafana.com/oss/loki/ELK Stack (Elasticsearch, Logstash, Kibana): https://www.elastic.co/elastic-stackGreat Expectations – Datenvalidierung und Monitoring: https://greatexpectations.ioRedash – SQL-basierte Dashboards und Visualisierungen: https://redash.ioMetabase – Self-Service BI-Tool: https://www.metabase.comNagios – klassisches System-Monitoring-Tool: https://www.nagios.orgIcinga – moderner Nagios-Fork: https://icinga.comZabbix – Monitoring-Plattform für Netzwerke & Server: https://www.zabbix.comPrometheus Alertmanager: https://prometheus.io/docs/alerting/latest/alertmanager/PagerDuty – Incident Response Management: https://www.pagerduty.com📬 Fragen, Feedback oder Themenwünsche?
Schreibt uns gern an:
[email protected]