Siamo alla ricerca di un Data Engineer con forte background di software engineering per supportare un nostro cliente internazionale. La risorsa dovrà occuparsi dell’automazione completa dei flussi di estrazione, trasformazione, validazione e reimportazione di dataset tra una piattaforma statistica proprietaria di grandi dimensioni e numerosi file Excel personalizzati provenienti da enti nazionali di diversi Paesi.
L’intero progetto si svolge esclusivamente in lingua inglese (riunioni, documentazione, comunicazioni e colloqui). È quindi richiesta un’ottima padronanza scritta e parlata.
Il contesto tecnico comprende:
* Database PostgreSQL molto esteso (miliardi di record);
* Una API Python proprietaria per tutte le operazioni sui dati;
* Un ambiente di orchestrazione simile ad Apache Airflow, nel quale le pipeline vanno progettate da zero;
* Workflow basati su Excel complessi e variabili, con template diversi per settore e Paese.
Le principali attività previste includono:
* Sviluppo end-to-end di processi per export via API, generazione di Excel personalizzati, validazione dei file restituiti e reimportazione dei dati;
* Progettazione e implementazione di pipeline automatizzate;
* Collaborazione con team tematici internazionali con requisiti eterogenei;
* Sviluppo di componenti riusabili e applicazione di buone pratiche ingegneristiche.
Competenze richieste:
* Python avanzato (generatori, yield, decorator, funzioni di ordine superiore, args/kwargs, gestione file molto grandi);
* Ottima conoscenza NumPy e Pandas;
* Esperienza in pipeline ETL, workflow automatizzati e database SQL (preferibile PostgreSQL);
* Conoscenza di Airflow o sistemi simili;
* Best practice software (librerie riusabili, semantic versioning, unit/integration test, gestione branch/merge).
Nice to have: conoscenza R ed esperienza GCP/AWS.