L’ingénieur en fiabilité de site se concentre principalement sur la création d’une solution logicielle à la fois fiable et évolutive. Dans cette optique, il lui appartient par exemple de faire en sorte que le travail de lancement soit efficace, de sorte que lorsque les logiciels sont prêts pour l’utilisation et la production, il n’y a pas de mauvaises surprises.
Que fait un SRE ou un ingénieur en fiabilité de site ?
Avant tout, l’ingénierie de la fiabilité du site consiste à partager le temps entre le développement et les opérations. À titre de référence, un SRE peut être impliqué dans les tâches manuelles, les incidents de garde et les tickets d’assistance. Un ingénieur en fiabilité de site peut également consacrer son temps à honorer des travaux plus proactifs, comme l’optimisation de la fiabilité du système, l’automatisation des logiciels, etc.
Afin de réduire la quantité de travail manuel et de s’assurer que tous les composants numériques comme les infrastructures, les matériels, les logiciels indispensables pour le maintien des déploiements des systèmes en direct fonctionnent de manière plus efficace. En outre, l’objectif et la responsabilité d’un SRE étant de s’assurer que le logiciel est déployé convenablement et de fournir une prestation fiable aux utilisateurs finaux. Son rôle comprend la gestion des problèmes se produisant après le déploiement du système.
Les responsabilités courantes du SRE
Dans la majeure partie des cas, les responsabilités réelles d’un ingénieur en fiabilité de site varient d’une société à une autre. Quoi qu’il en soit, il doit toujours être le premier responsable de la planification de la capacité, de disponibilité, de performance, de surveillance, d’intervention en cas d’incident, d’assistance sur appel et d’autopsie.
Mis à part cela, afin de mener à bien ses principales missions, le SRE doit avant tout être polyvalent et autonome. Ces deux qualités lui permettent par exemple d’approvisionner le stockage dans AWS, de discuter avec les clients ou encore d’écrire du code Python dans chaque nouveau projet.
Les outils utilisés par un SRE
Un ingénieur en fiabilité de site travaillant dans une petite entreprise peut porter plus de chapeaux, car le personnel est souvent limité. Par conséquent, les outils qu’il utilise au quotidien sont nombreux, notamment des systèmes d’automatisation de réponse aux incidents, des outils de surveillance et d’analyse ainsi que des plateformes de gestion du paramétrage. En général, les outils les plus populaires qu’un ingénieur en fiabilité de site utilise au quotidien sont Terraform, Docker, Kibana et Prometheus. Il peut aussi utiliser des logiciels spécifiques pour les tâches plus complexes dans les grandes entreprises.