Siamo alla ricerca di un
Data Engineer
con forte background di
software engineering
per supportare un nostro cliente internazionale. La risorsa dovrà occuparsi dell’automazione completa dei flussi di
estrazione, trasformazione, validazione e reimportazione di dataset
tra una piattaforma statistica proprietaria di grandi dimensioni e numerosi
file Excel personalizzati
provenienti da enti nazionali di diversi Paesi.
L’intero progetto si svolge
esclusivamente in lingua inglese
(riunioni, documentazione, comunicazioni e colloqui). È quindi richiesta un’ottima padronanza scritta e parlata.
Il contesto tecnico comprende: Database
PostgreSQL
molto esteso (miliardi di record); Una
API Python proprietaria
per tutte le operazioni sui dati; Un ambiente di orchestrazione simile ad
Apache Airflow, nel quale le pipeline vanno progettate da zero; Workflow basati su
Excel complessi e variabili, con template diversi per settore e Paese.
Le principali attività previste includono: Sviluppo end-to-end di processi per export via API, generazione di Excel personalizzati, validazione dei file restituiti e reimportazione dei dati; Progettazione e implementazione di
pipeline automatizzate ; Collaborazione con team tematici internazionali con requisiti eterogenei; Sviluppo di componenti riusabili e applicazione di buone pratiche ingegneristiche.
Competenze richieste: Python avanzato
(generatori, yield, decorator, funzioni di ordine superiore, args/kwargs, gestione file molto grandi); Ottima conoscenza
NumPy
e
Pandas ; Esperienza in
pipeline ETL, workflow automatizzati e database SQL (preferibile PostgreSQL); Conoscenza di
Airflow
o sistemi simili; Best practice software (librerie riusabili, semantic versioning, unit/integration test, gestione branch/merge).
Nice to have: conoscenza
R
ed esperienza
GCP/AWS .