PSiamo alla ricerca di un bSite Reliability Engineer /b motivato a contribuire alla scalabilità e all’ottimizzazione di una complessa binfrastruttura Cloud in produzione su Azure /b. /ppSi tratta di un sistema distribuito progettato per raccogliere, gestire e distribuire grosse moli di dati in tempo reale. Include componenti connessi “at the edge” che devono essere in grado di operare in scenari “offline” e garantire “eventual consistency” dei dati. La lingua di lavoro principale è l’inglese, dato che il sistema è utilizzato da clienti internazionali. /ppIl ruolo richiede un forte focus sull’affidabilità, la scalabilità, la sicurezza e la resilienza dell’infrastruttura, con un utilizzo intensivo di bAzure Kubernetes Service (AKS) /b, bAzure Database for PostgreSQL /b, bMongoDB Atlas /b ed bApache Kafka /b. /ppIl candidato deve inoltre essere disponibile a partecipare alla turnazione on-call, ovviamente remunerata e concordata per essere distribuita equamente nel mese, per la gestione di emergenze e incidenti fuori orario lavorativo standard. /ppNon è necessario avere esperienza approfondita su tutti i tool utilizzati: siamo pronti a offrire formazione tramite corsi e “training on the job” per colmare eventuali lacune e supportare la crescita professionale. /ppbResponsabilità principali /b /pulliMigliorare la resilienza ed ottimizzare il cluster Kubernetes (AKS su Azure), assicurando performance, scalabilità, sicurezza ed alta affidabilità dei servizi deployati /liliConfigurare ed ottimizzare i database relazionali (PostgreSQL su Azure) e non relazionali (MongoDB Atlas) per garantire performance, affidabilità e sicurezza dei dati /liliGestire e ottimizzare Apache Kafka (su AKS) per la raccolta e distribuzione di dati in tempo reale /liliAutomatizzare processi operativi per ridurre il “toil” e migliorare l’efficacia dei team (Platform team e Product team) /liliPartecipare alla turnazione on-call per garantire una rapida risposta agli incidenti e alle emergenze /liliSviluppare pipeline di monitoraggio e alerting per identificare e debuggare rapidamente problemi operativi /liliIdentificare prontamente la “root cause” di problemi bloccanti, sviluppando documentazione tecnica dettagliata ed automazioni per evitare che problemi noti si verifichino nuovamente /liliCollaborare con il team di sviluppo per il miglioramento continuo del ciclo di vita dello sviluppo software (SDLC), garantendo pratiche solide e coerenti /liliOpportunità di lavorare su infrastrutture cloud-native moderne, resilienti e scalabili, in un contesto di stream processing ed edge computing /liliForte attenzione alla cura delle persone, guidata dai nostri valori aziendali di intraprendenza, curiosità, cura e onestà /liliAmbiente collaborativo e stimolante, “remote friendly”, orientato alla crescita professionale e personale /li /ul #J-18808-Ljbffr