LCC 245 - Interview SRE avec Nicolas Helleringer et Maxime Brugidou - partie 2

Published: Jan. 4, 2021, 4:43 p.m.

Nicolas et Maxime de Crit\xe9o partagent avec Emmanuel leur exp\xe9rience de mise en place d\u2019une organisation SRE (Site Reliability Engineering). Suite et fin de cette interview.

Enregistr\xe9 le 12 novembre 2020

T\xe9l\xe9chargement de l\u2019\xe9pisode LesCastCodeurs-Episode\u2013245.mp3

Interview Ta vie, ton oeuvre

Twotter Nicolas
Twitter Maxime
Criteo Labs

Intros et premiers sujets en partie 1

Episode 243 - partie 1

Concepts int\xe9ressants

Standard Operating Procedure
Gestion d\u2019incident

Dashboard

Postmortem

Comment \xe7a se passe ?

Relation avec l\u2019\xe9quipe produit

On code sur le produit ?
Feedback loop

Quid de syst\xe8mes fondamentalement en risque du black swan (\xe9chec syst\xe9mique)

Une \xe9quipe SRE par boite ?
Une \xe9quipe SRE par produit ?

Le monitoring

Quoi mesurer ?
Beaucoup, peu ?

Entra\xeenements et cas r\xe9els

Que se passe-t-il quand cela chie dans la colle ?
On s\u2019entraine ?
Vous faite le draining d\u2019erreur budget

Drainer des clusters pour maintenance et impact sur l\u2019utilisateur

Conclusions

Livres Google sur le Site Reliability Engineering

Nous contacter

Faire un crowdcast ou une crowdquestion
Contactez-nous via twitter https://twitter.com/lescastcodeurs
sur le groupe Google https://groups.google.com/group/lescastcodeurs
ou sur le site web https://lescastcodeurs.com/