Our Platform Engineering Team in Düsseldorf is looking for YOU!
Unser Platform Engineering Team in Düsseldorf sucht Dich!
Deine Aufgaben
------------------
Verantwortung für Zuverlässigkeit: Definiere und steuere SLOs/SLIs, Fehlerbudgets und „Golden Signals“ für latenzkritische Algo-Trading-Dienste. Leite Incident-Response-Prozesse und Nachanalysen in einer „blameless“ (nicht schuldzuweisenden) Kultur
Produktionsarchitektur: Entwirf und entwickle geo-redundante Architekturen mit Active-Active- bzw. Active-Passive-Topologien über Regionen und Verfügbarkeitszonen hinweg – einschließlich Failover, Datenreplikation und Notfallwiederherstellung (RTO/RPO)
Kubernetes in großem Maßstab: Entwirf, sichere und betreibe AKS-basierte Multi-Cluster-Umgebungen (Multi-Tenant, Multi-Region) – einschließlich Netzwerk, Sicherheit, Autoscaling, Node-Pools und Upgrade-Strategien
Infrastructure as Code: Verantworte Terraform-Blueprints und Ansible-Automatisierungen – von Basis-Images bis zu Cluster-Add-ons – und sorge für idempotente, richtliniengesicherte und nachvollziehbare Änderungen
Automatisierung & Effizienz: Baue Progressive-Delivery-Pipelines (Blue/Green, Canary) mit kontrollierten Rollouts und automatischen Rollbacks für Trading-Microservices, Adapter, Marktdaten- und Ausführungs-Gateways auf
Observability & Performance: Implementiere End-to-End-Tracing (OpenTelemetry), Metriken, Logs und synthetische Probes. Führe Kapazitätsplanung, Performance-Tests und Optimierungen von p99/p999-Latenzen durch
Runtime-Sicherheit: Setze Laufzeitsicherheit, Secret-Management, Image-Hygiene und Compliance-Kontrollen durch – integriert nach dem „Shift-Left“-Prinzip in Build- und Deploy-Workflows
Algo-Trading-Runtime: Betreibe und optimiere Deltix-basierte Komponenten (Timebase DB, Ember, Strategy Server) in containerisierten, hochverfügbaren Setups. Übernimm die Verantwortung für die zugehörigen Helm-Charts
Zusammenarbeit & Führung: Betreue und führe SREs, DevOps- und Entwicklerinnen, leite Design-Reviews und stimme dich mit den Bereichen Platform, Security und Trading über Prioritäten und Roadmaps ab Innovation: Fördere eine Kultur der Innovation, bleibe auf dem neuesten Stand der Technologie und integriere sinnvolle Neuerungen in den Handelsbereich
Dein Profil
---------------
Du hast einen Abschluss in Informatik, Mathematik, Ingenieurwesen oder einem verwandten Fachgebiet
Du hast mehr als 10 Jahre Erfahrung in SRE-, Plattform- oder Infrastruktur-Rollen
Du hast praktische Erfahrung im Betrieb komplexer, latenzkritischer Algo-Trading- oder marktbezogener Systeme in Produktionsumgebungen
Du hast mindestens 3 Jahre Erfahrung als DevOps- oder SRE-Engineer mit einem klaren Fokus auf Observability
Du hast mindestens 3 Jahre Erfahrung als Softwareentwicklerin Du bist Expertin in Kubernetes (bevorzugt AKS), einschließlich Cluster-Lebenszyklus, Netzwerk (CNI, Ingress, eBPF), HPA/VPA, Node-Autoscaling, PodDisruptionBudgets und Upgrades ohne Downtime Du hast tiefgehende Erfahrung mit Azure, einschließlich VNet-Design, Private Link/Endpoints, Peering, Routing, Managed Identity/Entra ID, Key Vault, Storage, Azure Monitor/Log Analytics, Front Door/Traffic Manager, Load Balancers, App Gateway und API Management
Du beherrschst Terraform auf Expertenniveau – mit modularen Designs, State Management, Workspaces, Policies (OPA/Sentinel) und Pipeline-Integration
Du kennst dich mit Containern und Software-Lieferketten aus – inklusive Docker/OCI, Image-Scanning und -Signierung, SBOMs und reproduzierbaren Builds
Du bist vertraut mit Observability-Tools wie Prometheus und Grafana, beherrschst das Design von Alerts, OpenTelemetry-Tracing sowie Log-Pipelines und Aufbewahrungsstrategien
Du hast praktische Erfahrung mit dem Betrieb und Tuning von Deltix-Komponenten (z. B. TimeBase, QuantOffice, Ember) in containerisierten, hochverfügbaren Umgebungen
Du besitzt fundierte Kenntnisse in Netzwerktechnologien (L4/L7, TLS/mTLS, DNS, BGP-Grundlagen), Linux-Interna und Performance-Tuning für latenzkritische Services
Du hast nachweisliche Erfahrung mit geo-redundanten Architekturen sowie der Planung und Durchführung von Disaster-Recovery-Tests
Du kennst dich mit Marktdatenverteilung (Multicast/Unicast), FIX/OUCH/ITCH-Protokollen und Exchange-Connectivity aus
Du bist sicher im Umgang mit GitHub Actions (oder ähnlichen CI/CD-Tools) und mindestens einer Programmiersprache wie Python oder C# für Tools und Diagnosen
Du verfügst über ausgezeichnete Kommunikationsfähigkeiten und kannst durch Fachkompetenz und Einfluss führen
* Du sprichst fließend Englisch; Deutschkenntnisse sind von Vorteil
Beware of fraud agents! do not pay money to get a job
MNCJobs.de will not be responsible for any payment made to a third-party. All Terms of Use are applicable.