Monitoring

Le monitoring est un pilier essentiel de toute infrastructure informatique moderne.
Il permet de garantir la disponibilité, la performance et la fiabilité des systèmes, tout en facilitant le diagnostic des incidents.
Une bonne stratégie de monitoring permet aussi d’anticiper les pannes, d’alerter en temps réel, et de disposer d’une traçabilité complète.

Schema

Objectifs

Notre système de supervision vise à :

Centraliser la collecte de logs et métriques
Offrir une visualisation claire et interactive de l’état du système
Alerter automatiquement en cas d’anomalie
Automatiser la découverte des machines et services via l’intégration à Netbox

Outils utilisés

Voici les composants principaux de notre stack de monitoring :

Grafana

Interface graphique centralisée pour l’analyse des données.
Grafana permet de créer des dashboards personnalisés, de configurer des alertes et de consulter à la fois les logs (Loki) et métriques (Prometheus) en un seul endroit.

Prometheus

Système de collecte de métriques basé sur le modèle pull.
Il interroge régulièrement les endpoints des services exposant des métriques (comme Node Exporter), et les stocke dans une base de données interne.

Node Exporter

Agent installé sur chaque machine pour exposer les métriques système: CPU, RAM, disque, etc.
Il est scrappé par Prometheus.

Blackbox Exporter

Supervise l’accessibilité réseau des services via des sondes HTTP, TCP et ICMP. Permet de vérifier que les endpoints internes ou externes sont accessibles et de déclencher des alertes en cas d’indisponibilité.

Alloy

Agent unifié de collecte, déployé sur Kubernetes et les VMs NixOS.
Il remplace Promtail et collecte :

Les logs applicatifs (dans les pods Kubernetes)
Les logs systèmes (journald sur les VMs)

Loki

Backend de logs développé par Grafana Labs.
Il reçoit les logs depuis Alloy et permet de les interroger efficacement, avec une interface intégrée dans Grafana.

Alertes Grafana

Grafana permet de configurer des alertes déclenchées par les métriques ou les logs.
Les alertes peuvent être envoyées via un webhook vers un système tiers ou une application de messagerie.

Découverte dynamique via Netbox

Grâce à Netbox, notre système de supervision est capable de découvrir automatiquement les hôtes à surveiller.

Un service (prometheus-netbox-sd) transforme les objets Netbox en fichiers file_sd_config compatibles Prometheus.
Cela permet une mise à jour dynamique de la liste des machines surveillées, sans modifier la configuration manuellement.
Cette liaison assure que notre supervision est toujours synchronisée avec la réalité de l’infrastructure.

Intégration globale

La stack fonctionne de manière intégrée:

Alloy collecte les logs → envoyés à Loki
Node Exporter expose les métriques → collectées par Prometheus
Grafana interroge Loki et Prometheus → dashboards + alertes
Les alertes sont envoyées via webhook en cas de problème
Netbox alimente automatiquement Prometheus en nouvelles cibles

Ce système complet nous permet d’avoir un suivi en temps réel, une visualisation claire, une détection rapide d’anomalies et une réduction du temps de résolution des incidents.

Last modified: 22 July 2025