ETL Pipeline · Star Schema · Talend · Postgresql · 2025–2026
Une entreprise souhaite centraliser les informations de ses employés afin d'améliorer la gestion des ressources humaines. Les données proviennent de trois sources hétérogènes (CSV, SQL et Excel) et doivent être intégrées dans un entrepôt de données unique selon une modélisation décisionnelle en schéma étoile.
Le projet couvre l'intégralité du cycle ETL : extraction multi-sources, nettoyage (doublons, valeurs nulles), jointures par identifiant employé, création de colonnes calculées (salaire annuel, total absences, nb formations), et chargement dans un DW structuré avec tables de faits et dimensions.
Sources → rh_entreprise : DDL + chargement des 4 tables de staging

stg_salaires (1200) + stg_employes (106) → DIM_EMPLOYE (100 lignes)

Génération programmatique → DIM_TEMPS (1 096 lignes)

stg_absences_presences (582) → DIM_ABSENCE (520 lignes)

stg_formations (266) → DIM_FORMATION (238 lignes)

dim_employe + lookups absences/formations/temps → FAIT_RH (1 032 lignes)

Chaîne les 6 jobs J0 → J5 en séquence avec OnSubjobOk
