Ressources - Phase 2

Modelisation & Design | Data Architect Academy

Livres Essentiels

The Data Warehouse Toolkit

KimballIncontournable

Ralph Kimball & Margy Ross - 3e edition, Wiley. La bible de la modelisation dimensionnelle. Couvre le star schema, les dimensions, les faits, les SCD et plus de 20 cas d'etude par industrie. A lire en priorite absolue.

Site Kimball Group

Building the Data Warehouse

InmonEDW

Bill Inmon - 4e edition, Wiley. L'approche top-down de la construction d'un Enterprise Data Warehouse. Normalisation, Corporate Information Factory, integration des donnees. Complementaire a Kimball.

Data Vault 2.0

Data VaultAvance

Dan Linstedt & Michael Olschimke - Morgan Kaufmann. Guide complet du Data Vault 2.0 : Hubs, Links, Satellites, hash keys, PIT tables, et patterns d'implementation. Indispensable pour les architectures hybrides.

DAMA-DMBOK 2.0

GouvernanceReference

DAMA International - Technics Publications. Le guide de reference pour la gouvernance des donnees. 11 Knowledge Areas, frameworks, bonnes pratiques. Requis pour la certification CDMP.

DAMA International

Data Mesh

Data MeshModerne

Zhamak Dehghani - O'Reilly, 2022. Les 4 principes du Data Mesh : domain ownership, data as product, self-serve platform, federated governance. Vision decentralisee de l'architecture de donnees.

Fundamentals of Data Engineering

EngineeringComplet

Joe Reis & Matt Housley - O'Reilly, 2022. Vue d'ensemble du data engineering moderne. Couvre le cycle de vie des donnees, les architectures, les outils et les bonnes pratiques. Excellent complement a cette phase.

Deciphering Data Architectures

ArchitectureModerne

James Serra - O'Reilly, 2024. Comparaison claire des architectures : Data Warehouse, Data Lake, Lakehouse, Data Mesh, Data Fabric. Schemas decisionnels pour choisir la bonne approche. Lecture rapide et pragmatique.

Data Governance

GouvernancePratique

John Ladley - Academic Press. Guide pratique pour concevoir, deployer et maintenir un programme de gouvernance des donnees. Couvre l'organisation, les roles, les processus et le change management.

Cours en Ligne

Data Warehousing for BI

CourseraGratuit

University of Colorado - Specialisation en 5 cours couvrant la modelisation dimensionnelle, ETL, et la BI. Inclut des exercices pratiques avec PostgreSQL. Duree : environ 20 heures.

Voir sur Coursera

dbt Guide to Dimensional Modeling

dbtPratique

dbt Labs - Guide gratuit et complet sur la modelisation dimensionnelle avec dbt. Couvre les faits, dimensions, SCD, et les bonnes pratiques de transformation. Approche moderne et code-first.

Documentation dbt

Kimball Group Design Tips

KimballGratuit

Kimball Group - Plus de 180 articles (Design Tips) couvrant tous les aspects de la modelisation dimensionnelle. Ressource inestimable, chaque article est un cas pratique concret.

Design Tips

Data Engineering Zoomcamp

DataTalksGratuit

DataTalks.Club - Bootcamp gratuit couvrant le data engineering de A a Z. Modules sur la modelisation, dbt, BigQuery, Spark. Projets pratiques et communaute active.

GitHub Zoomcamp

CDMP Exam Preparation

DAMACertification

DAMA International - Cours de preparation a la certification CDMP. Couvre les 14 sujets du DMBOK. Disponible en ligne avec des examens blancs. Investissement essentiel pour la carriere.

Data Vault Online Training

Data VaultPayant

Data Vault Alliance - Formation officielle Data Vault 2.0 par Dan Linstedt. Certification CDVP2. Couvre la methodologie complete, les patterns avances et l'automatisation.

IBM Data Architecture Professional

CourseraCertification

IBM - Certificat professionnel en architecture de donnees. Couvre la modelisation, la gouvernance, les pipelines ETL/ELT, et les architectures cloud. 6 cours, environ 3 mois.

Voir sur Coursera

James Serra's Blog

BlogGratuit

James Serra - Blog de reference sur les architectures de donnees modernes : Data Mesh vs Data Fabric, Lakehouse, Medallion. Articles clairs avec schemas comparatifs.

Visiter le blog

Outils de Modelisation

OutilTypePrixPoints FortsCas d'Usage
ERwin Data ModelerModelisation ERPayant (licence)Standard industriel, reverse engineering, forward engineering, generation DDL multi-SGBDGrandes entreprises, modelisation conceptuelle/logique/physique
dbt (Data Build Tool)Transformation SQLCore gratuit / Cloud payantCode-first, versioning Git, tests automatises, documentation auto, lineageTransformation ELT, modelisation dimensionnelle moderne
SqlDBMModelisation CloudFreemiumInterface web intuitive, collaboration temps reel, support multi-cloudEquipes agiles, modelisation rapide, prototypage
HackoladeModelisation NoSQL + SQLPayant (licence)Support NoSQL natif (MongoDB, Cassandra, Neo4j), JSON Schema, AvroModelisation polyglotte, architectures multi-modeles
Draw.io / diagrams.netDiagrammesGratuitSimple, integration Confluence/GitHub, templates ER, pas de courbe d'apprentissageDocumentation, diagrammes d'architecture, schemas rapides
DataHubData CatalogOpen SourceMetadata management, lineage, search, data discovery, API GraphQLGouvernance, catalogage, data discovery
Apache AtlasGouvernanceOpen SourceIntegration Hadoop, lineage, classification, glossaire metierEcosysteme Hadoop/Spark, gouvernance centralisee
CollibraGouvernancePayant (enterprise)Plateforme complete, workflows, stewardship, qualite, lineageGrandes organisations, gouvernance a l'echelle
AirbyteIngestion (EL)Open Source / Cloud350+ connecteurs, self-hosted, extensible, communaute activeIngestion de donnees, remplacement Fivetran
Great ExpectationsData QualityOpen SourceTests de qualite declaratifs, data contracts, profiling, docs autoQuality gates entre couches Medallion
OpenMetadataData CatalogOpen SourceUI intuitive, quality integree, profiling, lineage, collaborationAlternative moderne a DataHub/Atlas
Cube.devSemantic LayerOpen SourceAPI-first (REST/GraphQL), pre-aggregations, cache, headless BISemantic layer, API analytics

Certifications

CDMP - Certified Data Management Professional

DAMARecommande

Niveaux : Associate (60%), Practitioner (70%), Master (80%)

Format : 100 questions, 90 minutes. 2 examens specialises requis apres le Fundamentals.

Sujets : 14 domaines du DMBOK incluant gouvernance, modelisation, qualite, metadata, integration, securite.

Preparation : 3-6 mois d'etude du DMBOK + examens blancs. Investissement : ~400 USD par examen.

Site officiel CDMP

CDVP2 - Certified Data Vault 2.0 Practitioner

Data VaultSpecialise

Prerequis : Formation officielle Data Vault Alliance recommandee.

Format : Examen theorique + projet pratique de modelisation Data Vault.

Valeur : Reconnaissance pour les projets Data Vault, de plus en plus demande en entreprise.

Google Professional Data Engineer

CloudGCP

Format : 50 questions, 2 heures. Couvre BigQuery, Dataflow, Pub/Sub, ML.

Pertinence Phase 2 : Inclut des questions sur la modelisation, l'architecture de donnees et la gouvernance dans GCP.

Databricks Data Engineer Associate

LakehouseModerne

Format : 45 questions, 90 minutes. Couvre Spark, Delta Lake, Medallion Architecture.

Pertinence Phase 2 : Excellent complement pour la Medallion Architecture et les patterns modernes de donnees.

Plan d'Etude - 16 Semaines

Module 2.1 - Data Modeling Classique (Semaines 1-6)

Sem. 1
Fondamentaux de la modelisation - Introduction, niveaux conceptuel/logique/physique. Lire chapitres 1-2 du Kimball Toolkit. Pratiquer les diagrammes ER sur Draw.io.
Sem. 2
Normalisation approfondie - 1NF a 5NF avec exercices SQL. Pratiquer sur PostgreSQL : creer des tables, normaliser un schema existant. Lire Inmon chapitres 3-4.
Sem. 3
Star Schema Kimball - Faits, dimensions, mesures. Lire Kimball chapitres 3-6. Lab : concevoir un star schema complet pour un cas e-commerce.
Sem. 4
SCD et techniques avancees - SCD Types 1-6, dimensions degenerees, junk dimensions. Implementer SCD Type 2 en SQL. Kimball chapitres 7-10.
Sem. 5
Data Vault 2.0 - Hubs, Links, Satellites, hash keys. Lire Data Vault 2.0 chapitres 1-8. Lab : modeliser un Data Vault pour un systeme de commandes.
Sem. 6
OBT et outils - One Big Table, Activity Schema. Explorer ERwin, SqlDBM, dbt. Quiz de modelisation. Reviser l'ensemble du module.

Module 2.2 - Gouvernance DAMA-DMBOK (Semaines 7-10)

Sem. 7
DAMA-DMBOK vue d'ensemble - Lire DMBOK chapitres 1-3. Comprendre la roue DAMA et les 11 Knowledge Areas. Prendre des notes structurees.
Sem. 8
Gouvernance et MDM - Gouvernance en pratique, roles et responsabilites. Master Data Management. Lab : creer une charte de gouvernance. DMBOK chapitres 4-7.
Sem. 9
Metadata et conformite - Metadata management, data catalog, data lineage. RGPD/GDPR. Explorer DataHub. DMBOK chapitres 8-11.
Sem. 10
Qualite des donnees - 6 dimensions de la qualite, scoring, monitoring. Quiz gouvernance. Commencer la preparation CDMP si souhaite.

Module 2.3 - Architecture Patterns (Semaines 11-14)

Sem. 11
ETL/ELT et architectures classiques - ETL vs ELT vs Reverse ETL. Lambda et Kappa architectures. Lire Fundamentals of Data Engineering chapitres correspondants.
Sem. 12
Medallion Architecture - Bronze/Silver/Gold en detail. Lab : concevoir une architecture Medallion pour un cas retail. Explorer Delta Lake et dbt.
Sem. 13
Data Mesh et Data Fabric - 4 principes du Data Mesh, Data Fabric metadata-driven. Lire le livre de Zhamak Dehghani. Comparaison des patterns.
Sem. 14
Projet integre - Modeliser un Data Warehouse complet : conceptuel, star schema, Data Vault, Medallion. Presenter le resultat.

Revision et Examen (Semaines 15-16)

Sem. 15
Revision generale - Revoir tous les modules, refaire les quizzes. Completer les labs manques. Preparer l'examen final.
Sem. 16
Examen final Phase 2 - 30 questions. Valider les competences. Planifier la transition vers la Phase 3 (Modern Data Stack).

Plateformes de Pratique

dbt Learn (dbt Labs)

dbtGratuit

Cours interactif officiel de dbt Labs. Apprenez dbt en construisant un projet complet : staging, marts, tests, documentation. Environ 4 heures, certificat de completion.

Commencer le cours

DataHub Quickstart

Open SourcePratique

Deployer un Data Catalog DataHub en local avec Docker Compose. Explorer la UI, ingerer des metadata, creer un glossaire et tracer le lineage.

Guide Quickstart

Databricks Community Edition

LakehouseGratuit

Environnement Databricks gratuit avec Spark, Delta Lake et notebooks. Ideal pour pratiquer la Medallion Architecture avec des donnees reelles.

S'inscrire gratuitement

Kaggle Datasets

DonneesGratuit

Des milliers de datasets reels pour pratiquer la modelisation. Recherchez "e-commerce", "retail sales", "customers" pour les exercices de cette phase.

Explorer les datasets

PostgreSQL + Docker

LocalGratuit

Lancez un PostgreSQL local pour pratiquer les DDL Star Schema, Data Vault et les requetes analytiques. Commande : docker run -p 5432:5432 -e POSTGRES_PASSWORD=pass postgres:16

Great Expectations Getting Started

QualityGratuit

Tutorial officiel pour creer vos premiers tests de qualite de donnees. Definir des expectations, generer des rapports, integrer dans un pipeline.

Documentation GX

Communautes et Veille

dbt Community

SlackActif

Plus de 50 000 membres. Canaux dedies a la modelisation, gouvernance, et bonnes pratiques. Couch Conference annuelle gratuite en ligne.

Rejoindre la communaute

Data Engineering Weekly

NewsletterGratuit

Newsletter hebdomadaire couvrant les dernieres tendances en data engineering, architecture et modelisation. Curatee par Ananth Packkildurai.

r/dataengineering

RedditGratuit

Subreddit actif avec plus de 200 000 membres. Discussions techniques, retours d'experience, questions de carriere et partage de ressources.

Locally Optimistic

BlogCommunaute

Blog communautaire et Slack pour les professionnels de la data. Articles de fond sur la gouvernance, la modelisation et les analytics engineering.

DataTalks.Club

SlackGratuit

Communaute de plus de 30 000 membres. Zoomcamps gratuits, podcasts, office hours avec des experts. Tres oriente pratique.

DAMA France

AssociationFrancophone

Chapitre francais de DAMA International. Evenements, webinaires, et ressources en francais sur la gouvernance et le management des donnees.

Site DAMA France