🌐 Contexte de mission
Nous recherchons un(e) SRE / AI Engineer pour renforcer une équipe IT en charge d’améliorer les systèmes d’alerting et d’incidents dans un environnement multi-marque et cloud.
L’objectif est de concevoir des agents intelligents capables d’automatiser la détection et la résolution d’incidents tout en améliorant la pertinence des alertes et la performance opérationnelle.
🛠 Missions principales et rôle
-
Évoluer et améliorer les agents AI existants pour optimiser l’alerte et la détection d’incidents.
-
Concevoir des agents intelligents capables d’assister ou d’automatiser les workflows de résolution d’incidents.
-
Réduire le bruit dans les systèmes d’alerting en améliorant la qualité et la pertinence des signaux.
-
Diminuer le MTTD (Mean Time to Detection) et le MTTR (Mean Time to Recovery) via l’automatisation pilotée par les agents.
-
Assurer l’intégration fluide des agents dans l’infrastructure existante et les projets futurs.
-
Rédiger la documentation technique et les runbooks liés aux agents AI.
🎯 Objectifs / Livrables
-
Agents AI Python capables de générer des alertes précises et contextuelles.
-
Intégration des agents avec les systèmes de monitoring, logging et gestion des incidents.
-
Documentation de l’architecture des agents, de leurs comportements et modèles d’intégration.
-
Workflows et runbooks améliorés ou partiellement automatisés.
-
Mesure de l’amélioration de la qualité des alertes, du temps de réponse aux incidents et de l’efficacité opérationnelle.
📚 Compétences requises
- Monitoring
- AWS
- Kubernetes
- Devops
- Terraform
- Python
👤 Profil recherché
-
Expérience en SRE / DevOps dans des environnements cloud (AWS) et conteneurisés (Kubernetes).
-
Sensibilité à l’IA appliquée à l’alerting et à l’automatisation des incidents.
-
Capacité à travailler en équipe agile sur des projets multi-technologies.
-
Rigueur, sens de l’analyse et orientation amélioration continue.