Nicolas et Maxime de Critéo partagent avec Emmanuel leur expérience de mise en place d'une organisation SRE (Site Reliability Engineering).
Suite et fin de cette interview.
Enregistré le 12 novembre 2020
Téléchargement de l'épisode [LesCastCodeurs-Episode-245.mp3](http://traffic.libsyn.com/lescastcodeurs/LesCastCodeurs-Episode-245.mp3)
## Interview
### Ta vie, ton oeuvre
[Twotter Nicolas](https://twitter.com/nhelleringer)
[Twitter Maxime](https://twitter.com/brugidou)
[Criteo Labs](https://labs.criteo.com)
### Intros et premiers sujets en partie 1
[Episode 243 - partie 1](/2020/12/04/lcc-243-interview-sre-avec-nicolas-helleringer-et-maxime-brugidou-partie-1/)
### Concepts intéressants
Standard Operating Procedure
Gestion d'incident
Dashboard
#### Postmortem
Comment ça se passe ?
### Relation avec l'équipe produit
On code sur le produit ?
Feedback loop
Quid de systèmes fondamentalement en risque du black swan (échec systémique)
Une équipe SRE par boite ?
Une équipe SRE par produit ?
### Le monitoring
Quoi mesurer ?
Beaucoup, peu ?
### Entraînements et cas réels
Que se passe-t-il quand cela chie dans la colle ?
On s’entraine ?
Vous faite le draining d'erreur budget
Drainer des clusters pour maintenance et impact sur l’utilisateur
### Conclusions
[Livres Google sur le Site Reliability Engineering](https://sre.google/books/)
## Nous contacter
[Faire un crowdcast ou une crowdquestion](https://lescastcodeurs.com/crowdcasting/)
Contactez-nous via twitter
sur le groupe Google
ou sur le site web