Site Reliability Engineering · Berlin

Andreas Menzel

Ich halte Produktions-Systeme stabil, schnell und bezahlbar — von Kubernetes-Reliability über Cloud-FinOps und AI-gestützte Observability bis zu Hardware- und IoT-Prototyping.

Leistungen ansehen Kontakt aufnehmen

Offen für Austausch & Rollen im Umfeld Robotik & autonome Systeme

scroll

Über mich

Reliability-Engineering mit Blick fürs Wesentliche

Ich bin Site Reliability Engineer in Berlin. Mein Tagesgeschäft ist der zuverlässige Betrieb von Produktions-Systemen: Kubernetes-Cluster, On-Call und Incident-Response, sauberes Observability-Setup und das konsequente Senken von Cloud-Kosten, ohne Stabilität zu opfern.

Davor habe ich viele Jahre Software im regulierten Life-Sciences-/GxP-Umfeld gebaut und verantwortet — von Forschung & Entwicklung bis DevOps. Dort habe ich gelernt, Systeme zu bauen, die Audits und Validierung standhalten. Diese Sorgfalt nehme ich in jedes Projekt mit.

AI-gestützte Werkzeuge baue ich zunehmend in den Betrieb ein — etwa eine Incident-Investigation, die Root-Cause-Analysen auf Basis von APM-Daten spürbar beschleunigt. Im Arbeitsalltag setze ich auf AI-Coding-Assistenten wie Claude Code, GitHub Copilot und Gemini.

Mein nächster Schritt geht in Richtung Robotik und autonome Systeme. Hardware und Sensorik sind mein langjähriges Steckenpferd, das ich aktuell akademisch im Bereich Robotik vertiefe — aus dem Hobby sind reale Anwendungen entstanden, etwa Temperatur-Monitoring im laufenden Betrieb. Für Austausch und passende Rollen in dem Umfeld bin ich offen.

Werkzeuge & Themen

Kubernetes / GKE On-Call & Incident Response Cloud FinOps Observability / APM AI-gestützte Ops LLM- / AI-Tooling Claude Code GitHub Copilot Gemini Terraform CI/CD Linux GxP / validierte Systeme ESP32 / Arduino Sensorik / IoT Robotik (im Aufbau)

Leistungen

Womit ich helfen kann

Vier Felder, in denen ich konkret unterstütze — als Beratung, im Projekt oder punktuell.

SRE & Reliability Engineering

Damit Dienste laufen, wenn es darauf ankommt.

On-Call- und Incident-Prozesse aufbauen
SLOs, Error-Budgets, Postmortems
Kubernetes-/GKE-Betrieb härten

Cloud-Kostenoptimierung

Spürbar weniger Cloud-Rechnung, gleiche Leistung.

Cloud-Spend analysieren & reduzieren
CI- und Observability-Kosten senken
Right-Sizing & Workflow-Effizienz

Observability & Monitoring

Sehen, was im System wirklich passiert.

Metriken, Logs, Tracing & Dashboards
Alerting, das nicht im Rauschen untergeht
AI-gestützte Incident-Investigation

IoT & Hardware-Prototyping

Vom Sensor zum laufenden Aufbau.

ESP32 / Arduino / M5Stack
Sensorik & Umwelt-/Temperatur-Monitoring
Prototypen bis zum realen Einsatz

Kontakt

Lass uns reden.

Ob konkretes Projekt, eine zweite Meinung zur Reliability oder einfach ein Kennenlernen — schreib mir kurz, worum es geht. Ich melde mich zurück. Besonders über Kontakte im Umfeld Robotik & autonome Systeme freue ich mich.

linkedin.com/in/andreasmenzel