Lead Site Reliability Engineer Algo Trading (w/m/d)

Düsseldorf, NW, DE, Germany

Job Description

Our Platform Engineering Team in Düsseldorf is looking for YOU!
Unser Platform Engineering Team in Düsseldorf sucht Dich!


Deine Aufgaben


------------------


Verantwortung für Zuverlässigkeit: Definiere und steuere SLOs/SLIs, Fehlerbudgets und „Golden Signals“ für latenzkritische Algo-Trading-Dienste. Leite Incident-Response-Prozesse und Nachanalysen in einer „blameless“ (nicht schuldzuweisenden) Kultur Produktionsarchitektur: Entwirf und entwickle geo-redundante Architekturen mit Active-Active- bzw. Active-Passive-Topologien über Regionen und Verfügbarkeitszonen hinweg – einschließlich Failover, Datenreplikation und Notfallwiederherstellung (RTO/RPO) Kubernetes in großem Maßstab: Entwirf, sichere und betreibe AKS-basierte Multi-Cluster-Umgebungen (Multi-Tenant, Multi-Region) – einschließlich Netzwerk, Sicherheit, Autoscaling, Node-Pools und Upgrade-Strategien Infrastructure as Code: Verantworte Terraform-Blueprints und Ansible-Automatisierungen – von Basis-Images bis zu Cluster-Add-ons – und sorge für idempotente, richtliniengesicherte und nachvollziehbare Änderungen Automatisierung & Effizienz: Baue Progressive-Delivery-Pipelines (Blue/Green, Canary) mit kontrollierten Rollouts und automatischen Rollbacks für Trading-Microservices, Adapter, Marktdaten- und Ausführungs-Gateways auf Observability & Performance: Implementiere End-to-End-Tracing (OpenTelemetry), Metriken, Logs und synthetische Probes. Führe Kapazitätsplanung, Performance-Tests und Optimierungen von p99/p999-Latenzen durch Runtime-Sicherheit: Setze Laufzeitsicherheit, Secret-Management, Image-Hygiene und Compliance-Kontrollen durch – integriert nach dem „Shift-Left“-Prinzip in Build- und Deploy-Workflows Algo-Trading-Runtime: Betreibe und optimiere Deltix-basierte Komponenten (Timebase DB, Ember, Strategy Server) in containerisierten, hochverfügbaren Setups. Übernimm die Verantwortung für die zugehörigen Helm-Charts Zusammenarbeit & Führung: Betreue und führe SREs, DevOps- und Entwicklerinnen, leite Design-Reviews und stimme dich mit den Bereichen Platform, Security und Trading über Prioritäten und Roadmaps ab
Innovation: Fördere eine Kultur der Innovation, bleibe auf dem neuesten Stand der Technologie und integriere sinnvolle Neuerungen in den Handelsbereich

Dein Profil


---------------


Du hast einen Abschluss in Informatik, Mathematik, Ingenieurwesen oder einem verwandten Fachgebiet Du hast mehr als 10 Jahre Erfahrung in SRE-, Plattform- oder Infrastruktur-Rollen Du hast praktische Erfahrung im Betrieb komplexer, latenzkritischer Algo-Trading- oder marktbezogener Systeme in Produktionsumgebungen Du hast mindestens 3 Jahre Erfahrung als DevOps- oder SRE-Engineer mit einem klaren Fokus auf Observability Du hast mindestens 3 Jahre Erfahrung als Softwareentwicklerin
Du bist Expertin in Kubernetes (bevorzugt AKS), einschließlich Cluster-Lebenszyklus, Netzwerk (CNI, Ingress, eBPF), HPA/VPA, Node-Autoscaling, PodDisruptionBudgets und Upgrades ohne Downtime
Du hast tiefgehende Erfahrung mit Azure, einschließlich VNet-Design, Private Link/Endpoints, Peering, Routing, Managed Identity/Entra ID, Key Vault, Storage, Azure Monitor/Log Analytics, Front Door/Traffic Manager, Load Balancers, App Gateway und API Management Du beherrschst Terraform auf Expertenniveau – mit modularen Designs, State Management, Workspaces, Policies (OPA/Sentinel) und Pipeline-Integration Du kennst dich mit Containern und Software-Lieferketten aus – inklusive Docker/OCI, Image-Scanning und -Signierung, SBOMs und reproduzierbaren Builds Du bist vertraut mit Observability-Tools wie Prometheus und Grafana, beherrschst das Design von Alerts, OpenTelemetry-Tracing sowie Log-Pipelines und Aufbewahrungsstrategien Du hast praktische Erfahrung mit dem Betrieb und Tuning von Deltix-Komponenten (z. B. TimeBase, QuantOffice, Ember) in containerisierten, hochverfügbaren Umgebungen Du besitzt fundierte Kenntnisse in Netzwerktechnologien (L4/L7, TLS/mTLS, DNS, BGP-Grundlagen), Linux-Interna und Performance-Tuning für latenzkritische Services Du hast nachweisliche Erfahrung mit geo-redundanten Architekturen sowie der Planung und Durchführung von Disaster-Recovery-Tests Du kennst dich mit Marktdatenverteilung (Multicast/Unicast), FIX/OUCH/ITCH-Protokollen und Exchange-Connectivity aus Du bist sicher im Umgang mit GitHub Actions (oder ähnlichen CI/CD-Tools) und mindestens einer Programmiersprache wie Python oder C# für Tools und Diagnosen Du verfügst über ausgezeichnete Kommunikationsfähigkeiten und kannst durch Fachkompetenz und Einfluss führen * Du sprichst fließend Englisch; Deutschkenntnisse sind von Vorteil

Beware of fraud agents! do not pay money to get a job

MNCJobs.de will not be responsible for any payment made to a third-party. All Terms of Use are applicable.


Related Jobs

Job Detail

  • Job Id
    JD3587113
  • Industry
    Not mentioned
  • Total Positions
    1
  • Job Type:
    Vollzeit
  • Salary:
    Not mentioned
  • Employment Status
    Permanent
  • Job Location
    Düsseldorf, NW, DE, Germany
  • Education
    Not mentioned