La posizione è aperta all'interno del team di Leonardo.**Job Description:**All'interno dell'Area Hypercomputing Continuum siamo alla ricerca di un/una HPC & AI Cloud Architect appassionato di infrastrutture innovative per l'addestramento e l'inferenza di modelli AI. Il candidato ideale ha esperienza concreta nella progettazione, implementazione e ottimizzazione di ambienti HPC e AI cloud-native su OpenStack, integrando le migliori soluzioni open source.**La persona si occuperà delle seguenti attività:*** Progettazione dell'architettura di infrastrutture HPC e AI per supportare carichi di lavoro complessi, training e inferenza modelli AI/ML e simulazioni avanzate, in ambienti OpenStack;
* Definizione di strategie per l'adozione di tecnologie emergenti (acceleratori, XPUs, GPU/TPU, high performance fabrics, storage NVMe, file system paralleli tipo Lustre/GPFS/BeeGFS);
* Implementazione di cluster computazionali (CPU/GPU), orchestrazione container e VM (Kubernetes, Docker, Slurm, OpenStack), e ottimizzazione delle risorse per AI e HPC;
* Integrazione con ambienti DevOps/MLOps per workflow CI/CD di modelli AI, automazione e monitoraggio;
* Seguire la standardizzazione delle infrastrutture tramite Infrastructure-as-Code (Terraform, Ansible, Kolla);
* Gestione e tuning dinetworking ad alta velocità (Infiniband, 200/400GbE), storage avanzato e data pipeline per big data e machine learning;
* Implementare best practice per la sicurezza, monitoraggio, reliability (monitoraggio, logging, observability, SLO/SLAs) e business continuity;
* Coordinamento di progetti di business continuity, disaster recovery e backup in ambienti HPC/AI;
* Collaborare con datascientist, DevOps, ingegneri software e stakeholder di ricerca per costruire soluzioni AI/HPC altamente performanti e customizzate;
* Stesura della documentazione tecnica e supporto alle attività di compliance, sicurezza e auditing.**Titolo di studio**Laurea magistrale in Informatica, Ingegneria Informatica o discipline STEM affini.**Seniority**Expert: 3–5 anni di esperienza.**Conoscenze e competenze tecniche*** Esperienza di almeno 3 anni nella progettazione e gestione di infrastrutture HPC e AI, preferibilmente in ambienti cloud ibridi e multi-tenant,e almeno uno sulle principali distribuzioni OpenStack;
* Esperienza nella progettazione e configurazione di tecnologie HPC (cluster, scheduler, file system paralleli), architetture GPU/XPU e strumenti di orchestrazione (Kubernetes, Slurm, Docker);
* Esperienza con acceleratori (GPU, CUDA) per AI/ML e pipeline di deployment di modelli di machine learning su cloud.;
* Conoscenza di sistemi operativi Linux/Unix, scripting, networking avanzato (SDN, InfiniBand, RDMA) e soluzioni per il trasferimento dati ad alta velocità;
* Esperienza nell'implementazione di workflow CI/CD e MLOps per training ed inferenza distributed;
* Capacità di benchmarking, tuning, troubleshooting di ambienti HPC/AI e ottimizzazione delle risorse;
* Conoscenza di strumenti Infrastructure-as-Code, tecniche di tuning prestazionale e monitoraggio (Prometheus, Grafana);
* Competenze in storage ad alte prestazioni, interfacce NVMe-oF, SAN/NAS, data management.**Soft Skills*** Collaborazione cross-funzionale e orientamento al risultato;
* Proattività, autonomia e attenzione alla qualità;
* Esperienza in metodologie Agile (Scrum) e pratiche Lean/Kanban;
* Flessibilità, problem solving e spirito di innovazione.**Competenze linguistiche**Buona conoscenza dell'inglese, scritto e parlato (B2).**Altro**Disponibilità a trasferte nazionali e internazionali.**Seniority:**Esperto**Primary Location:**IT - Roma - Via Laurentina**Additional Locations:**IT - Genova - Fiumara**Contract Type:**Permanent**Hybrid Working:**IbridoQuesta opportunità è disponibile nelle seguenti città: Genova, Roma.