Dans le cadre du renforcement de l?équipe Infrastructure & Production, notre client recherche un Site Reliability Engineer afin de garantir la disponibilité, la performance, la résilience et la scalabilité de ses plateformes critiques.
L?objectif est de renforcer les pratiques DevOps, d?automatiser les opérations et d?améliorer l?observabilité des systèmes dans un environnement agile et exigeant.
Missions principales
Assurer la stabilité, la résilience et la scalabilité des plateformes applicatives.
Automatiser le déploiement, le monitoring, l?alerte et la résolution d?incidents (infrastructure as code, CI/CD, scripts?).
Mettre en place des outils d?observabilité : logs, métriques, traces.
Participer à la gestion des incidents majeurs et à la rédaction des post-mortems.
Collaborer avec les équipes Dev pour améliorer la fiabilité des applications en production (pratiques SRE).
Gérer l?infrastructure cloud (AWS, Azure ou GCP).
Participer à la définition des SLI/SLO/SLAs.
Participer à la mise en place ou au renforcement des pratiques de sécurité (IAM, chiffrement, scans?).
Profil candidat:
Stack technique idéale
Cloud : AWS / GCP / Azure
Conteneurisation & orchestration : Docker, Kubernetes, Helm
IaC : Terraform, Ansible
CI/CD : GitLab CI, Jenkins, ArgoCD, FluxCD
Monitoring & observabilité : Prometheus, Grafana, ELK, Datadog, Sentry
Langages de scripting : Python, Bash, Go
Systèmes : Linux, Red Hat, Ubuntu
Sécurité : IAM, Vault, scans de vulnérabilités, SOC/SIEM (atout)
Profil recherché
Expérience confirmée en tant que SRE, DevOps ou Ingénieur Production.
Solide culture Systèmes / Réseaux / Cloud.
Appétence forte pour l?automatisation et la résolution de problèmes complexes.
Bon relationnel et capacité à collaborer avec des profils Dev, SecOps et Produit.
Culture de la qualité, du delivery rapide et de la fiabilité à grande échelle.
Connaissances en architectures distribuées, haute disponibilité, gestion des pannes.
Signaler l'offre