Lieu : Sophia Antipolis, France
Construisons ensemble un avenir de confiance
Thales est un leader mondial des hautes technologies spécialisé dans trois secteurs d’activité : Défense & Sécurité, Aéronautique & Spatial, et Cyber & Digital. Il développe des produits et solutions qui contribuent à un monde plus sûr, plus respectueux de l’environnement et plus inclusif. Le Groupe investit près de 4,5 milliards d’euros par an en Recherche & Développement, notamment dans des domaines clés de l’innovation tels que l’IA, la cybersécurité, le quantique, les technologies du cloud et la 6G. Thales compte près de 85 000 collaborateurs dans 65 pays.
Nos engagements, vos avantages
Une réussite portée par notre excellence technologique, votre expérience et notre ambition partagée
Un package de rémunération attractif
Un développement des compétences en continu : parcours de formation, académies et communautés internes
Un environnement inclusif, bienveillant et respectant l’équilibre des collaborateurs
Un engagement sociétal et environnemental reconnu
Votre quotidien
Au coeur de la Silicon Valley de la région PACA, notre site regroupe nos activités développe des sonars de pointe équipant les sous-marins et les bâtiments de surface ainsi que des activités de services numériques. Pionnier dans le domaine des produits de simulation, le site mobilise une expertise approfondie en acoustique et en traitement du signal.
Nous recherchons un Ingénieur Site Reliability Engineer afin d'assurer un haut niveau de service et d'excellence opérationnelle pour le développement d'une solution télécom innovante et ambitieuse (forte disponibilité, contraintes de haute performance) déployée dans le cloud public.
Ce produit nécessite la mise en place d'une équipe SRE dédiée.
Fonctions Essentielles
Automatisation & Infrastructure as Code : Concevoir, construire et maintenir une infrastructure évolutive en utilisant des outils tels que Terraform, Ansible et Kubernetes. Développer des pipelines CI/CD automatisés via GitLab pour réduire le travail manuel répétitif.
Disponibilité & Ingénierie de la Fiabilité : Définir et surveiller les Objectifs de Niveau de Service (SLO) et les Indicateurs de Niveau de Service (SLI). Gérer les "Error Budgets" afin d'équilibrer la vitesse d'intégration des nouvelles fonctionnalités avec la stabilité de la plateforme.
Gestion des Incidents & Support en Astreinte : Participer aux rotations d’astreinte 24/7 pour fournir une réponse d’urgence et effectuer des diagnostics approfondis des problèmes en production.
Performance & Planification de la Capacité : Réaliser des analyses de performance système, identifier les goulets d’étranglement et planifier la capacité pour garantir que l’infrastructure supporte la croissance et les pics de charge.
Observabilité & Monitoring : Mettre en œuvre et affiner les alertes basées sur les symptômes et des stratégies de surveillance complètes en utilisant des plateformes comme Datadog, afin d’assurer une visibilité élevée sur la santé du système.
Amélioration Continue & Postmortems : Animer des revues sans blâme après incidents pour identifier les causes profondes et mettre en place des corrections techniques pérennes afin de prévenir la récurrence.
Sécurité & Conformité : Collaborer avec les équipes de sécurité cloud pour appliquer les bonnes pratiques de sécurité, gérer les contrôles d’accès et répondre aux incidents ou vulnérabilités de sécurité.
Support de la relation client
Interface avec d’autres parties prenantes pour définir un plan d’amélioration de la solution
Vous aurez la responsabilité de la disponibilité du service de la solution.
Votre Profil
Formation Ingénieur ou équivalent vous disposez :
Au moins 5 ans d'expérience en tant que SRE
Compétences en développement Java requises.
Vous êtes familier avec le Cloud Public (GCP, AWS), les conteneurs et microservices (Docker, Kubernetes, Java), CI/CD et automatisation (Jenkins, GitLab, Helm), bases de données NoSQL.
Vous êtes fluent en anglais.
Merci de postuler avec un CV en Anglais.
Certification :
La certification Architecte Cloud GCP est un plus.
Vous avez déjà mis en place la surveillance produit et l’infrastructure sous-jacente.
Vous avez une expérience de développement dans un contexte de systèmes distribués et/ou de haute disponibilité.
Vous êtes familier avec le développement de microservices.
Vous avez participé à la définition d’architectures, structures de données, algorithmes avec des contraintes de performance, sécurité, fiabilité, etc.
Certification architecte cloud public.
Vous vous intéressez aux aspects Site Reliability Engineer : CI/CD, automatisation, monitoring et observabilité, amélioration continue.
Vous êtes un ingénieur développeur accompli, polyvalent et capable de gérer plusieurs tâches.
Thales, entreprise Handi-Engagée, reconnait tous les talents. La diversité est notre meilleur atout. Postulez et rejoignez nous !