Résilience de l’infrastructure IT

Gestion des coupures de courant sur les sites hébergeant les serveurs

Contexte

Les serveurs critiques de notre infrastructure sont répartis sur plusieurs sites géographiques. Afin de garantir une haute disponibilité et la continuité de service, des dispositifs de protection contre les coupures de courant ont été mis en place.

Moyens de protection

Chaque site est équipé des dispositifs suivants :

Onduleurs (UPS) assurant une alimentation de secours immédiate en cas de coupure du réseau électrique.
Groupes électrogènes permettant de prendre le relais des onduleurs pour fournir une alimentation prolongée lors des coupures prolongées.
Systèmes de monitoring pour détecter et alerter en cas de défaillance électrique.

Risques en cas de coupure prolongée

Si l’électricité ne revient pas dans les délais couverts par l’autonomie de l’UPS ou du groupe électrogène, les risques sont :

Arrêt des services critiques
Perte ou corruption de données en cours d'écriture
Détérioration matérielle sur redémarrage brutal

Cependant, grâce à la présence de load balancers, si un site devient indisponible, le trafic est automatiquement redirigé vers un autre site opérationnel, limitant ainsi l’impact sur les utilisateurs finaux.

Risques liés aux sinistres majeurs (incendie, dégât des eaux, etc.)

Scénarios à risque

Nos sites peuvent être exposés à des événements tels que :

Incendie
Dégât des eaux important
Intrusion physique ou acte de malveillance

Mesures de prévention et de réponse

Systèmes de détection et d’alerte incendie/inondation sont en place.
Les salles serveurs sont étanches et compartimentées.
Des backups réguliers sont effectués sur plusieurs supports: disques externes, stockage distant, et cloud sécurisé.
L’architecture est définie de manière déclarative via NixOS, K3s et Terraform, ce qui permet une reconstruction rapide et fiable de l’environnement en cas de destruction d’un site.

Capacité de reprise

En cas de sinistre majeur, les équipes techniques peuvent :

Restaurer l’infrastructure à l’identique à partir des fichiers de configuration déclaratifs.
Réinstancier les machines et les services sur un autre site ou dans un environnement cloud.
Limiter fortement le temps de RTO (Recovery Time Objective) grâce à l’automatisation et l’Infrastructure as Code.

Conclusion

Notre approche repose sur un modèle de résilience hybride, mêlant :

Redondance physique
Infrastructure as Code
Répartition géographique
Plan de reprise d’activité (PRA) testé régulièrement

Cela permet de garantir un haut niveau de continuité de service même en cas d’événements imprévus majeurs.

Last modified: 13 July 2025