Résilience de l’infrastructure IT
Gestion des coupures de courant sur les sites hébergeant les serveurs
Contexte
Les serveurs critiques de notre infrastructure sont répartis sur plusieurs sites géographiques. Afin de garantir une haute disponibilité et la continuité de service, des dispositifs de protection contre les coupures de courant ont été mis en place.
Moyens de protection
Chaque site est équipé des dispositifs suivants :
Onduleurs (UPS) assurant une alimentation de secours immédiate en cas de coupure du réseau électrique.
Groupes électrogènes permettant de prendre le relais des onduleurs pour fournir une alimentation prolongée lors des coupures prolongées.
Systèmes de monitoring pour détecter et alerter en cas de défaillance électrique.
Risques en cas de coupure prolongée
Si l’électricité ne revient pas dans les délais couverts par l’autonomie de l’UPS ou du groupe électrogène, les risques sont :
Arrêt des services critiques
Perte ou corruption de données en cours d'écriture
Détérioration matérielle sur redémarrage brutal
Cependant, grâce à la présence de load balancers, si un site devient indisponible, le trafic est automatiquement redirigé vers un autre site opérationnel, limitant ainsi l’impact sur les utilisateurs finaux.
Risques liés aux sinistres majeurs (incendie, dégât des eaux, etc.)
Scénarios à risque
Nos sites peuvent être exposés à des événements tels que :
Incendie
Dégât des eaux important
Intrusion physique ou acte de malveillance
Mesures de prévention et de réponse
Systèmes de détection et d’alerte incendie/inondation sont en place.
Les salles serveurs sont étanches et compartimentées.
Des backups réguliers sont effectués sur plusieurs supports: disques externes, stockage distant, et cloud sécurisé.
L’architecture est définie de manière déclarative via NixOS, K3s et Terraform, ce qui permet une reconstruction rapide et fiable de l’environnement en cas de destruction d’un site.
Capacité de reprise
En cas de sinistre majeur, les équipes techniques peuvent :
Restaurer l’infrastructure à l’identique à partir des fichiers de configuration déclaratifs.
Réinstancier les machines et les services sur un autre site ou dans un environnement cloud.
Limiter fortement le temps de RTO (Recovery Time Objective) grâce à l’automatisation et l’Infrastructure as Code.
Conclusion
Notre approche repose sur un modèle de résilience hybride, mêlant :
Redondance physique
Infrastructure as Code
Répartition géographique
Plan de reprise d’activité (PRA) testé régulièrement
Cela permet de garantir un haut niveau de continuité de service même en cas d’événements imprévus majeurs.