Site Reliability Engineering · Berlin

Andreas Menzel

Ich halte Produktions-Systeme stabil, schnell und bezahlbar — von Kubernetes-Reliability über Cloud-FinOps und AI-gestützte Observability bis zu Hardware- und IoT-Prototyping.

Offen für Austausch & Rollen im Umfeld Robotik & autonome Systeme

scroll
Über mich

Reliability-Engineering mit Blick fürs Wesentliche

Ich bin Site Reliability Engineer in Berlin. Mein Tagesgeschäft ist der zuverlässige Betrieb von Produktions-Systemen: Kubernetes-Cluster, On-Call und Incident-Response, sauberes Observability-Setup und das konsequente Senken von Cloud-Kosten, ohne Stabilität zu opfern.

Davor habe ich viele Jahre Software im regulierten Life-Sciences-/GxP-Umfeld gebaut und verantwortet — von Forschung & Entwicklung bis DevOps. Dort habe ich gelernt, Systeme zu bauen, die Audits und Validierung standhalten. Diese Sorgfalt nehme ich in jedes Projekt mit.

AI-gestützte Werkzeuge baue ich zunehmend in den Betrieb ein — etwa eine Incident-Investigation, die Root-Cause-Analysen auf Basis von APM-Daten spürbar beschleunigt. Im Arbeitsalltag setze ich auf AI-Coding-Assistenten wie Claude Code, GitHub Copilot und Gemini.

Mein nächster Schritt geht in Richtung Robotik und autonome Systeme. Hardware und Sensorik sind mein langjähriges Steckenpferd, das ich aktuell akademisch im Bereich Robotik vertiefe — aus dem Hobby sind reale Anwendungen entstanden, etwa Temperatur-Monitoring im laufenden Betrieb. Für Austausch und passende Rollen in dem Umfeld bin ich offen.

Werkzeuge & Themen

Kubernetes / GKE On-Call & Incident Response Cloud FinOps Observability / APM AI-gestützte Ops LLM- / AI-Tooling Claude Code GitHub Copilot Gemini Terraform CI/CD Linux GxP / validierte Systeme ESP32 / Arduino Sensorik / IoT Robotik (im Aufbau)
Leistungen

Womit ich helfen kann

Vier Felder, in denen ich konkret unterstütze — als Beratung, im Projekt oder punktuell.

SRE & Reliability Engineering

Damit Dienste laufen, wenn es darauf ankommt.

  • On-Call- und Incident-Prozesse aufbauen
  • SLOs, Error-Budgets, Postmortems
  • Kubernetes-/GKE-Betrieb härten

Cloud-Kostenoptimierung

Spürbar weniger Cloud-Rechnung, gleiche Leistung.

  • Cloud-Spend analysieren & reduzieren
  • CI- und Observability-Kosten senken
  • Right-Sizing & Workflow-Effizienz

Observability & Monitoring

Sehen, was im System wirklich passiert.

  • Metriken, Logs, Tracing & Dashboards
  • Alerting, das nicht im Rauschen untergeht
  • AI-gestützte Incident-Investigation

IoT & Hardware-Prototyping

Vom Sensor zum laufenden Aufbau.

  • ESP32 / Arduino / M5Stack
  • Sensorik & Umwelt-/Temperatur-Monitoring
  • Prototypen bis zum realen Einsatz
Kontakt

Lass uns reden.

Ob konkretes Projekt, eine zweite Meinung zur Reliability oder einfach ein Kennenlernen — schreib mir kurz, worum es geht. Ich melde mich zurück. Besonders über Kontakte im Umfeld Robotik & autonome Systeme freue ich mich.

Mit dem Absenden stimmst du der Verarbeitung deiner Angaben zur Bearbeitung der Anfrage zu. Details im Impressum & Datenschutz.