Wir benutzen telegraf, prometheus und node exporter sowie selbst gebastelte Skripte um Metriken auf den VMs einzusammeln.
Mit Grafana werten wir diese Daten aus und schlagen Alarm, sollte beispielsweise ein Dienst auf einem Server ausfallen, eine unserer Seiten nicht erreichbar sein oder die Festplatten voll laufen.
Die gesammelten Statistiken wie I/Os auf den Festplatten oder Netzwerkauslastung geben geben uns eine Übersicht über den Zustand der Plattform.