Modelisation & Design | Data Architect Academy
Ralph Kimball & Margy Ross - 3e edition, Wiley. La bible de la modelisation dimensionnelle. Couvre le star schema, les dimensions, les faits, les SCD et plus de 20 cas d'etude par industrie. A lire en priorite absolue.
Site Kimball GroupBill Inmon - 4e edition, Wiley. L'approche top-down de la construction d'un Enterprise Data Warehouse. Normalisation, Corporate Information Factory, integration des donnees. Complementaire a Kimball.
Dan Linstedt & Michael Olschimke - Morgan Kaufmann. Guide complet du Data Vault 2.0 : Hubs, Links, Satellites, hash keys, PIT tables, et patterns d'implementation. Indispensable pour les architectures hybrides.
DAMA International - Technics Publications. Le guide de reference pour la gouvernance des donnees. 11 Knowledge Areas, frameworks, bonnes pratiques. Requis pour la certification CDMP.
DAMA InternationalZhamak Dehghani - O'Reilly, 2022. Les 4 principes du Data Mesh : domain ownership, data as product, self-serve platform, federated governance. Vision decentralisee de l'architecture de donnees.
Joe Reis & Matt Housley - O'Reilly, 2022. Vue d'ensemble du data engineering moderne. Couvre le cycle de vie des donnees, les architectures, les outils et les bonnes pratiques. Excellent complement a cette phase.
James Serra - O'Reilly, 2024. Comparaison claire des architectures : Data Warehouse, Data Lake, Lakehouse, Data Mesh, Data Fabric. Schemas decisionnels pour choisir la bonne approche. Lecture rapide et pragmatique.
John Ladley - Academic Press. Guide pratique pour concevoir, deployer et maintenir un programme de gouvernance des donnees. Couvre l'organisation, les roles, les processus et le change management.
University of Colorado - Specialisation en 5 cours couvrant la modelisation dimensionnelle, ETL, et la BI. Inclut des exercices pratiques avec PostgreSQL. Duree : environ 20 heures.
Voir sur Courseradbt Labs - Guide gratuit et complet sur la modelisation dimensionnelle avec dbt. Couvre les faits, dimensions, SCD, et les bonnes pratiques de transformation. Approche moderne et code-first.
Documentation dbtKimball Group - Plus de 180 articles (Design Tips) couvrant tous les aspects de la modelisation dimensionnelle. Ressource inestimable, chaque article est un cas pratique concret.
Design TipsDataTalks.Club - Bootcamp gratuit couvrant le data engineering de A a Z. Modules sur la modelisation, dbt, BigQuery, Spark. Projets pratiques et communaute active.
GitHub ZoomcampDAMA International - Cours de preparation a la certification CDMP. Couvre les 14 sujets du DMBOK. Disponible en ligne avec des examens blancs. Investissement essentiel pour la carriere.
Data Vault Alliance - Formation officielle Data Vault 2.0 par Dan Linstedt. Certification CDVP2. Couvre la methodologie complete, les patterns avances et l'automatisation.
IBM - Certificat professionnel en architecture de donnees. Couvre la modelisation, la gouvernance, les pipelines ETL/ELT, et les architectures cloud. 6 cours, environ 3 mois.
Voir sur CourseraJames Serra - Blog de reference sur les architectures de donnees modernes : Data Mesh vs Data Fabric, Lakehouse, Medallion. Articles clairs avec schemas comparatifs.
Visiter le blog| Outil | Type | Prix | Points Forts | Cas d'Usage |
|---|---|---|---|---|
| ERwin Data Modeler | Modelisation ER | Payant (licence) | Standard industriel, reverse engineering, forward engineering, generation DDL multi-SGBD | Grandes entreprises, modelisation conceptuelle/logique/physique |
| dbt (Data Build Tool) | Transformation SQL | Core gratuit / Cloud payant | Code-first, versioning Git, tests automatises, documentation auto, lineage | Transformation ELT, modelisation dimensionnelle moderne |
| SqlDBM | Modelisation Cloud | Freemium | Interface web intuitive, collaboration temps reel, support multi-cloud | Equipes agiles, modelisation rapide, prototypage |
| Hackolade | Modelisation NoSQL + SQL | Payant (licence) | Support NoSQL natif (MongoDB, Cassandra, Neo4j), JSON Schema, Avro | Modelisation polyglotte, architectures multi-modeles |
| Draw.io / diagrams.net | Diagrammes | Gratuit | Simple, integration Confluence/GitHub, templates ER, pas de courbe d'apprentissage | Documentation, diagrammes d'architecture, schemas rapides |
| DataHub | Data Catalog | Open Source | Metadata management, lineage, search, data discovery, API GraphQL | Gouvernance, catalogage, data discovery |
| Apache Atlas | Gouvernance | Open Source | Integration Hadoop, lineage, classification, glossaire metier | Ecosysteme Hadoop/Spark, gouvernance centralisee |
| Collibra | Gouvernance | Payant (enterprise) | Plateforme complete, workflows, stewardship, qualite, lineage | Grandes organisations, gouvernance a l'echelle |
| Airbyte | Ingestion (EL) | Open Source / Cloud | 350+ connecteurs, self-hosted, extensible, communaute active | Ingestion de donnees, remplacement Fivetran |
| Great Expectations | Data Quality | Open Source | Tests de qualite declaratifs, data contracts, profiling, docs auto | Quality gates entre couches Medallion |
| OpenMetadata | Data Catalog | Open Source | UI intuitive, quality integree, profiling, lineage, collaboration | Alternative moderne a DataHub/Atlas |
| Cube.dev | Semantic Layer | Open Source | API-first (REST/GraphQL), pre-aggregations, cache, headless BI | Semantic layer, API analytics |
Niveaux : Associate (60%), Practitioner (70%), Master (80%)
Format : 100 questions, 90 minutes. 2 examens specialises requis apres le Fundamentals.
Sujets : 14 domaines du DMBOK incluant gouvernance, modelisation, qualite, metadata, integration, securite.
Preparation : 3-6 mois d'etude du DMBOK + examens blancs. Investissement : ~400 USD par examen.
Site officiel CDMPPrerequis : Formation officielle Data Vault Alliance recommandee.
Format : Examen theorique + projet pratique de modelisation Data Vault.
Valeur : Reconnaissance pour les projets Data Vault, de plus en plus demande en entreprise.
Format : 50 questions, 2 heures. Couvre BigQuery, Dataflow, Pub/Sub, ML.
Pertinence Phase 2 : Inclut des questions sur la modelisation, l'architecture de donnees et la gouvernance dans GCP.
Format : 45 questions, 90 minutes. Couvre Spark, Delta Lake, Medallion Architecture.
Pertinence Phase 2 : Excellent complement pour la Medallion Architecture et les patterns modernes de donnees.
Cours interactif officiel de dbt Labs. Apprenez dbt en construisant un projet complet : staging, marts, tests, documentation. Environ 4 heures, certificat de completion.
Commencer le coursDeployer un Data Catalog DataHub en local avec Docker Compose. Explorer la UI, ingerer des metadata, creer un glossaire et tracer le lineage.
Guide QuickstartEnvironnement Databricks gratuit avec Spark, Delta Lake et notebooks. Ideal pour pratiquer la Medallion Architecture avec des donnees reelles.
S'inscrire gratuitementDes milliers de datasets reels pour pratiquer la modelisation. Recherchez "e-commerce", "retail sales", "customers" pour les exercices de cette phase.
Explorer les datasetsLancez un PostgreSQL local pour pratiquer les DDL Star Schema, Data Vault et les requetes analytiques. Commande : docker run -p 5432:5432 -e POSTGRES_PASSWORD=pass postgres:16
Tutorial officiel pour creer vos premiers tests de qualite de donnees. Definir des expectations, generer des rapports, integrer dans un pipeline.
Documentation GXPlus de 50 000 membres. Canaux dedies a la modelisation, gouvernance, et bonnes pratiques. Couch Conference annuelle gratuite en ligne.
Rejoindre la communauteNewsletter hebdomadaire couvrant les dernieres tendances en data engineering, architecture et modelisation. Curatee par Ananth Packkildurai.
Subreddit actif avec plus de 200 000 membres. Discussions techniques, retours d'experience, questions de carriere et partage de ressources.
Blog communautaire et Slack pour les professionnels de la data. Articles de fond sur la gouvernance, la modelisation et les analytics engineering.
Communaute de plus de 30 000 membres. Zoomcamps gratuits, podcasts, office hours avec des experts. Tres oriente pratique.
Chapitre francais de DAMA International. Evenements, webinaires, et ressources en francais sur la gouvernance et le management des donnees.
Site DAMA France