All’interno dell’Area Hypercomputing Continuum siamo alla ricerca di un/una HPC & AI Cloud Architect appassionato di infrastrutture innovative per l’addestramento e l’inferenza di modelli AI. Il candidato ideale ha esperienza concreta nella progettazione, implementazione e ottimizzazione di ambienti HPC e AI cloud-native su OpenStack, integrando le migliori soluzioni open source. La persona si occuperà delle seguenti attività: Progettazione dell’architettura di infrastrutture HPC e AI per supportare carichi di lavoro complessi, training e inferenza modelli AI/ML e simulazioni avanzate, in ambienti OpenStack
- Implementazione di cluster computazionali (CPU/GPU), orchestrazione container e VM (Kubernetes, Docker, Slurm, OpenStack), e ottimizzazione delle risorse per AI e HPC
- Integrazione con ambienti DevOps/MLOps per workflow CI/CD di modelli AI, automazione e monitoraggio
- Gestione e tuning dinetworking ad alta velocità (Infiniband, 200/400GbE), storage avanzato e data pipeline per big data e machine learning
- Implementare best practice per la sicurezza, monitoraggio, reliability (monitoraggio, logging, observability, SLO/SLAs) e business continuity
- Collaborare con datascientist, DevOps, ingegneri software e stakeholder di ricerca per costruire soluzioni AI/HPC altamente performanti e customizzate
- Stesura della documentazione tecnica e supporto alle attività di compliance, sicurezza e auditing. Titolo di studio Laurea magistrale in Informatica, Ingegneria Informatica o discipline STEM affini. Conoscenze e competenze tecniche Esperienza di almeno 3 anni nella progettazione e gestione di infrastrutture HPC e AI, preferibilmente in ambienti cloud ibridi e multi-tenant,e almeno uno sulle principali distribuzioni OpenStack
- Esperienza nella progettazione e configurazione di tecnologie HPC (cluster, scheduler, file system paralleli), architetture GPU/XPU e strumenti di orchestrazione (Kubernetes, Slurm, Docker)
- Esperienza con acceleratori (GPU, CUDA) per AI/ML e pipeline di deployment di modelli di machine learning su cloud.
- Conoscenza di sistemi operativi Linux/Unix, scripting, networking avanzato (SDN, InfiniBand, RDMA) e soluzioni per il trasferimento dati ad alta velocità
- Esperienza nell’implementazione di workflow CI/CD e MLOps per training ed inferenza distributed
- Conoscenza di strumenti Infrastructure-as-Code, tecniche di tuning prestazionale e monitoraggio (Prometheus, Grafana)
- Competenze in storage ad alte prestazioni, interfacce NVMe-oF, SAN/NAS, data management. Proattività, autonomia e attenzione alla qualità
- Esperienza in metodologie Agile (Scrum) e pratiche Lean/Kanban
- Competenze linguistiche Buona conoscenza dell’inglese, scritto e parlato (B2). IT - Roma - Via Laurentina Additional Locations: IT - Genova - Fiumara Contract Type: Permanent Hybrid Working:IbridoQuesta possibilità è disponibile nelle seguenti città: Genova, Roma.