Dans le cadre du renforcement de la stratégie d’observabilité et de fiabilité des systèmes, nous recherchons un Expert Observabilité Datadog.
La mission vise à structurer, optimiser et industrialiser l’usage de la plateforme Datadog en complément des outils existants tels que Prometheus et Grafana.
L’enjeu est double : améliorer la cohérence globale de l’observabilité (logs, métriques, traces, RUM) et renforcer la fiabilité des services dans une logique SRE.
Analyser l’implémentation actuelle (Logs, APM, Monitors, RUM, Product Analytics)
Harmoniser les standards (naming convention, tagging strategy, gestion des environnements, dashboards, monitors)
Améliorer la qualité et la cohérence de l’instrumentation entre équipes
Optimiser les coûts (volumétrie logs, sampling APM, rétention)
Définir et diffuser les bonnes pratiques d’observabilité (applicative, infrastructure, produit)
Contribuer à la stratégie globale de monitoring en articulation avec Prometheus/Grafana
Concevoir et maintenir des dashboards adaptés aux enjeux Infrastructure, Applicatifs et Produit
Structurer et optimiser l’alerting (réduction du bruit, corrélation incidents)
Formaliser les indicateurs SLI / SLO en collaboration avec les équipes techniques
Améliorer la détection proactive des incidents
Assurer la cohérence entre métriques techniques et données d’observabilité
Accompagner les équipes de développement sur l’instrumentation APM, Logs et RUM
Collaborer avec les équipes Ops et Service Management
Travailler avec les équipes Produit sur l’exploitation des données RUM et Product Analytics
Produire et maintenir une documentation claire et structurée
Porter une démarche pédagogique et structurante auprès des équipes
Structurer un écosystème Datadog cohérent et industrialisé
Améliorer la fiabilité et la performance des applications
Réduire le bruit d’alerting et optimiser la gestion des incidents
Mettre en place des SLI / SLO pertinents et mesurables
Favoriser l’adoption transverse des bonnes pratiques d’observabilité
Bac+5 en informatique (école d’ingénieur ou université)
3 à 5 ans minimum d’expérience en monitoring / observabilité
Expérience significative sur Datadog (Logs, APM, Monitors – RUM et Product Analytics appréciés)
Expérience en environnement Cloud AWS appréciée
Connaissance Infrastructure as Code (Terraform) appréciée
Datadog : Logs, APM, RUM, Product Analytics, Dashboards, Monitors, SLO
Observabilité : SLI/SLO, tracing distribué, corrélation logs/métriques/traces
Monitoring : Prometheus, Grafana
Bonne compréhension des architectures web et des performances front (Web Vitals)
Rigueur et esprit analytique
Approche pragmatique d’amélioration continue
Pédagogie et capacité à fédérer
Collaboration transverse (Dev, Ops, QA, Produit, Support)
Expert Observabilité / SRE orienté Datadog
Capable de structurer une démarche globale et durable
À l’aise dans des environnements Cloud et orientés performance
Forte capacité d’influence transverse
Vision à la fois technique, produit et exploitation