In den bisherigen Beiträgen haben wir verfolgt, wie die Cortena Group Schritt für Schritt ihre neue Kubernetes-Plattform aufbaut – von der Kubernetes Netzwerkarchitektur bis hin zu Kubernetes Sicherheitsmechanismen. Mit der Inbetriebnahme der produktiven Umgebung steht das Fundament. Doch eine Frage ist nun entscheidend  (Stichwort Kubernetes Monitoring & Logging): 

Wie behalten Sie im laufenden Betrieb den Überblick? 

Kubernetes-Cluster sind hochdynamische Systeme. Pods starten neu, Deployments werden ausgerollt, Konfigurationen ändern sich – manchmal mehrmals täglich. Wer in dieser Umgebung keine Transparenz schafft, arbeitet im Blindflug. Das gilt für den stabilen Betrieb genauso wie für Sicherheit, Performance und Skalierung. 

Das Wichtigste in Kürze 

Ein Kubernetes-Cluster muss nicht nur funktionieren – er muss analysierbar, nachvollziehbar und steuerbar sein – in Echtzeit und auch rückblickend.  

  • Ohne Monitoring bleiben Performance-Engpässe oder Ausfälle oft unbemerkt. 
  • Ohne Logging fehlen Ursachenanalysen bei Fehlern und Sicherheitsvorfällen. 
  • Ohne zentrale Systeme entstehen Datensilos – und damit Unsicherheit. 

Dieser Beitrag zeigt am Beispiel der Cortena Group, wie modernes Monitoring und Logging in Kubernetes funktioniert – und welche standardisierten Bausteine Continum für den produktiven Betrieb bereitstellt. 

Monitoring: Wenn Wachstum Unsichtbares sichtbar macht 

Zu Beginn lief die Plattform der Cortena Group stabil – die Last war gering, die Anwendungen übersichtlich. Doch mit jeder neuen Funktion, mit jedem Release stieg die Last und die Komplexität. Erste Probleme traten auf: 

  • Plötzlich brachen Anfragen ab – die Anwendung reagierte verzögert. 
  • Auf den ersten Blick war nichts Auffälliges zu sehen – die Pods liefen. 
  • Erst ein Blick auf die Metriken offenbarte die Ursache: Der Redis-Cluster war überlastet 

Die Erkenntnis: Kubernetes ist keine Blackbox – aber ohne Metriksystem wird es dazu. 

Ziel ist es, künftig folgende Metriken kontinuierlich zu überwachen:: 

  • Ressourcennutzung (CPU, RAM, Storage, Netzwerk) 
  • Pod- und Node-Zustände 
  • Status von Datenbanken, Ingress, Load Balancern 
  • Anwendungsspezifische Metriken via Exporter 

Die Lösung: Continum setzt standardmäßig auf ein Prometheus-basiertes Monitoring, ergänzt durch Grafana-Dashboards, Alerting und individuelle Visualisierungen – individuell abgestimmt auf die Umgebung der Cortena Group. 

Logging: Warum Debugging nicht bei null beginnen darf 

Neben den Performancefragen rückte ein zweites Thema in den Fokus: die Nachvollziehbarkeit von Fehlern. Immer wieder berichteten Nutzer von Problemen, die nicht reproduzierbar waren. Die Ursache 

  • Die Logs lagen verteilt – im Container, im Cluster, in externen Systemen. 
  • Fehler traten nur unter Last auf – und waren beim Nachschauen schon wieder verschwunden. 
  • Entwickler konnten nicht nachvollziehen, was genau passiert war. 

Die Erkenntnis: Kubernetes ist von Natur aus ephemer. Pods starten neu, replizieren oder skalieren – und mit ihnen verschwinden die lokal geschriebenen Logs, sofern sie nicht aktiv zentral gesammelt werden. Gerade in dynamischen Umgebungen wie die der Cortena Group macht diese Eigenschaft die Log-Erfassung zur echten Herausforderung. Fehler müssen sichtbar sein, Debugging nachvollziehbar, und Audits sollen auf belastbare Daten zugreifen können. 

Die Lösung: Ein zentrales Logging-System wird eingeführt, das Logs aus sämtlichen Quellen strukturiert zusammenführt. 

Continum setzt dabei auf eine Kombination aus: 

  • Fluent Bit zur Aggregation 
  • einer stabilen Log-Pipeline 
  • Graylog als zentrale Analyseplattform für persistente Logs 

Diese Komponenten zusammen bilden für die Cortena Group künftig das zentrale Logging-System sowohl auf System- als auch auf Anwendungsebene. 

Alerting und Automatisierung: Reaktionszeit ist entscheidend

Ein funktionierendes Monitoring ist nur dann wirklich wertvoll, wenn es mit zielgerichtetem Alerting kombiniert wird. 

Gemeinsam mit Continum definierte die Cortena Group relevante Schwellenwerte und Ereignisse, bei denen eine aktive Benachrichtigung notwendig ist – z.B. bei: 

  • Pod-Ausfällen 
  • Ressourcenengpässen 
  • fehlerhaften Zertifikaten 
  • auffälligen Zugriffsmustern 

Die Alarme werden situationsabhängig über Slack, E-Mail oder per Webhooks (in dem Fall  Opsgenie oder Pagerduty) ausgelöst.  

Auf Wunsch der Cortena Group wurden Maßnahmen definiert mit denen Continum automatisch unterstützt:

  • Starten eines Debug-Pods bei wiederholten Abstürzen 
  • Erstellen eines Log-Snapshots zur späteren Analyse 

Die Kombination aus intelligentem Alerting und definierten Maßnahmen mit den Continum unterstützt bildet die Grundlage für schnelle Reaktionszeiten, ohne dabei unnötige Komplexität zu erzeugen. 

Kubernetes Monitoring & Logging mit Continum: Ein perfekt abgestimmtes System

Im Gegensatz zu isolierten Einzellösungen bietet Continum eine vollständig integrierte, aufeinander abgestimmte Monitoring- und Logging-Plattform. 

Die eingesetzten Komponenten – Prometheus, Grafana, Fluent Bit, Graylog und Alertmanager – werden mit angepassten Konfigurationen und Visualisierungen bereitgestellt, abgestimmt auf die individuellen Anforderungen jedes Clusters. 

Zum Einsatz kommen: 

  • Prometheus & Grafana – mit individuellen Dashboards 
  • Alertmanager – inklusive Eskalationsregeln 
  • Fluent Bit & Fluentd – für strukturiertes Log-Forwarding 
  • Graylog – zur zentralen Log-Analyse 
  • Integrationen – z.B. in bestehende SIEM- oder Monitoring-Systeme 

Darüber hinaus lassen sich alle Bausteine flexibel in bestehende Infrastrukturen integrieren – etwa zur Erfüllung interner Sicherheitsvorgaben oder regulatorischer Anforderungen. 

Kubernetes Monitoring & Logging: Nur wer sieht, kann steuern – und wachsen 

Kubernetes entfaltet sein volles Potenzial nur mit Transparenz im Betrieb. Monitoring und Logging sind keine optionalen Add-ons, sondern integraler Bestandteil einer stabilen, sicheren und zukunftsfähigen Plattformstrategie.

Die Cortena Group hat früh erkannt, dass Transparenz im Betrieb entscheidend ist – nicht nur zur Fehleranalyse, sondern auch für Skalierung, Kapazitätsplanung und die strategische Weiterentwicklung der Plattform. 

Im nächsten Beitrag der Serie zeigen wir, wie Unternehmen ihre Kubernetes-Plattformen gezielt skalieren können