Monitoring
Le monitoring est un pilier essentiel de toute infrastructure informatique moderne.
Il permet de garantir la disponibilité, la performance et la fiabilité des systèmes, tout en facilitant le diagnostic des incidents.
Une bonne stratégie de monitoring permet aussi d’anticiper les pannes, d’alerter en temps réel, et de disposer d’une traçabilité complète.
Schema

Objectifs
Notre système de supervision vise à :
Centraliser la collecte de logs et métriques
Offrir une visualisation claire et interactive de l’état du système
Alerter automatiquement en cas d’anomalie
Automatiser la découverte des machines et services via l’intégration à Netbox
Outils utilisés
Voici les composants principaux de notre stack de monitoring :
Grafana
Interface graphique centralisée pour l’analyse des données.
Grafana permet de créer des dashboards personnalisés, de configurer des alertes et de consulter à la fois les logs (Loki) et métriques (Prometheus) en un seul endroit.
Prometheus
Système de collecte de métriques basé sur le modèle pull.
Il interroge régulièrement les endpoints des services exposant des métriques (comme Node Exporter), et les stocke dans une base de données interne.
Node Exporter
Agent installé sur chaque machine pour exposer les métriques système: CPU, RAM, disque, etc.
Il est scrappé par Prometheus.
Blackbox Exporter
Supervise l’accessibilité réseau des services via des sondes HTTP, TCP et ICMP. Permet de vérifier que les endpoints internes ou externes sont accessibles et de déclencher des alertes en cas d’indisponibilité.
Alloy
Agent unifié de collecte, déployé sur Kubernetes et les VMs NixOS.
Il remplace Promtail et collecte :
Les logs applicatifs (dans les pods Kubernetes)
Les logs systèmes (
journaldsur les VMs)
Loki
Backend de logs développé par Grafana Labs.
Il reçoit les logs depuis Alloy et permet de les interroger efficacement, avec une interface intégrée dans Grafana.
Alertes Grafana
Grafana permet de configurer des alertes déclenchées par les métriques ou les logs.
Les alertes peuvent être envoyées via un webhook vers un système tiers ou une application de messagerie.
Découverte dynamique via Netbox
Grâce à Netbox, notre système de supervision est capable de découvrir automatiquement les hôtes à surveiller.
Un service (
prometheus-netbox-sd) transforme les objets Netbox en fichiersfile_sd_configcompatibles Prometheus.Cela permet une mise à jour dynamique de la liste des machines surveillées, sans modifier la configuration manuellement.
Cette liaison assure que notre supervision est toujours synchronisée avec la réalité de l’infrastructure.
Intégration globale
La stack fonctionne de manière intégrée:
Alloy collecte les logs → envoyés à Loki
Node Exporter expose les métriques → collectées par Prometheus
Grafana interroge Loki et Prometheus → dashboards + alertes
Les alertes sont envoyées via webhook en cas de problème
Netbox alimente automatiquement Prometheus en nouvelles cibles
Ce système complet nous permet d’avoir un suivi en temps réel, une visualisation claire, une détection rapide d’anomalies et une réduction du temps de résolution des incidents.