Cheat Sheet Phase 6 : Specialisation & Leadership

Data Architect - Certifications, Portfolio, Leadership | 20 sections de reference rapide

1. Certifications - Comparatif Complet

CertificationOrganismePrixDureeQuestionsScore minDifficulteROI MarchePriorite
CDMP FundamentalsDAMA International$31190 min100 QCM400/700 (Associate)EleveeTres eleveP1
SnowPro Core (COF-C02)Snowflake$175115 min100 QCM750/1000MoyenneEleveP1
GCP Prof. Data EngineerGoogle Cloud$200120 min50-60 QCM~70%EleveeTres eleveP1
Databricks DE AssociateDatabricks$20090 min45 QCM70%MoyenneEleveP2
AWS Data Engineer AssociateAWS$150170 min65 QCM720/1000EleveeEleveP2
Confluent Kafka DevConfluent$15090 min60 QCM70%MoyenneMoyenP3
dbt Analytics Engineerdbt LabsGratuitLibre65 QCM63%FaibleMoyenP3
Strategie optimale : CDMP d'abord (vendor-agnostic, couvre tout le DMBOK), puis 1 certif cloud alignee avec votre marche cible (Snowflake + GCP = combo puissant en France).

2. CDMP - 14 Domaines DMBOK

#DomainePoids
1Data Governance (central)~11%
2Data Architecture~11%
3Data Modeling & Design~11%
4Data Storage & Operations~6%
5Data Security~6%
6Data Integration & Interop~6%
7Document & Content Mgmt~6%
8Reference & Master Data~6%
9Data Warehousing & BI~6%
10Metadata Management~6%
11Data Quality~6%
12Big Data & Data Science~6%
13Data Management Process~6%
14Data Ethics~6%

Niveaux : Associate ≥ 400, Practitioner ≥ 500, Master ≥ 600 (sur 700)

3. Snowflake SnowPro Core

DomainePoids
Snowflake Cloud Data Platform Features25%
Account Access & Security20%
Performance Concepts15%
Data Loading & Unloading10%
Data Transformation20%
Data Protection & Sharing10%

Pieges courants

  • Time Travel : 1 jour (Standard), 90 jours (Enterprise)
  • Clustering : seulement tables > 1TB, pas de cluster key sur colonnes haute cardinalite + filtrage rare
  • Warehouses : auto-suspend min 1 min, scaling policy Standard vs Economy
  • Zero-copy clone : ne clone PAS les privileges

4. GCP Prof. Data Engineer

Services cles a maitriser

BesoinService GCP
Data WarehouseBigQuery
Stream ProcessingDataflow (Apache Beam)
Batch ETLDataproc (Spark) / Dataflow
MessagingPub/Sub
OrchestrationCloud Composer (Airflow)
ML PlatformVertex AI
StorageCloud Storage (GCS)
NoSQLBigtable / Firestore
Decision tree : Donnees structurees → BigQuery. Stream → Pub/Sub + Dataflow. ML → Vertex AI. Hadoop legacy → Dataproc.

5. Databricks & AWS Certifications

Databricks DE Associate - Domaines

  • Databricks Lakehouse Platform (24%)
  • ELT with Spark SQL & Python (29%)
  • Incremental Data Processing (22%)
  • Production Pipelines (25%)

AWS Data Engineer Associate - Domaines

  • Data Ingestion & Transformation (34%)
  • Data Store Management (26%)
  • Data Operations & Support (22%)
  • Data Security & Governance (18%)
Conseil : Pour Databricks, maitrisez Delta Live Tables et Unity Catalog. Pour AWS, focalisez sur Glue, Redshift, Kinesis et Lake Formation.

6. Confluent & dbt Certifications

Confluent Certified Developer

  • Kafka Fundamentals (15%)
  • Kafka Architecture (20%)
  • Producers (20%)
  • Consumers (20%)
  • Kafka Streams & ksqlDB (15%)
  • Connect & Schema Registry (10%)

dbt Analytics Engineering

  • dbt Models & Materializations
  • Tests & Documentation
  • Jinja & Macros
  • Packages & Seeds
  • Snapshots & Incremental

dbt est gratuit et peut etre passe en ligne a votre rythme.

7. Strategies de Preparation

Plan type (6 semaines)

SemaineActivite
1-2Etude du guide officiel + notes
3-4Labs pratiques + exercices
5Mock exams (viser > 80%)
6Revision points faibles + exam

Techniques efficaces

  • Spaced Repetition : Anki avec flashcards personnalisees
  • Active Recall : fermer le livre, ecrire de memoire
  • Pomodoro : 25 min focus + 5 min pause
  • Feynman : expliquer a un debutant pour verifier la comprehension
  • Practice tests : minimum 3 mock exams complets avant le vrai
Regle des 80/20 : 80% du score vient de 20% des sujets. Identifiez les domaines a fort poids et concentrez-y votre effort.

8. Portfolio Data Architect

Checklist du portfolio ideal

ElementMinimumIdeal
Projets GitHub2 repos4-5 repos documentes
Architecture diagramsC4 Level 1C4 L1-L3 + decision records
Blog articles3 articles1-2 par mois reguliers
Certifications1 certif2-3 certifs strategiques
Contributions OSS1 PR merged5+ PRs, maintainer status
Talks / Meetups02+ talks par an

Structure README type

# Project Name
## Architecture Overview (C4 diagram)
## Tech Stack & Justification
## Setup & Installation
## Data Flow Description
## Key Design Decisions (ADR links)
## Results & Metrics
## Lessons Learned

9. Projet E2E - Architecture de Reference

Sources Ingestion Storage Transform Serving ═══════ ═════════ ═══════ ═════════ ═══════ ┌──────────┐ ┌─────────────┐ ┌────────────┐ ┌───────────┐ ┌──────────┐ │ REST API │──────────│ │ │ │ │ │ │ Metabase │ └──────────┘ │ Airbyte / │ │ S3 / GCS │ │ dbt │ │ Superset │ ┌──────────┐ │ Fivetran │───────→│ (Iceberg) │──────→│ Medallion │─────→│ Looker │ │ Database │──────────│ │ │ │ │ │ │ │ └──────────┘ └─────────────┘ │ Bronze → │ │ Silver → │ └──────────┘ ┌──────────┐ ┌─────────────┐ │ Raw data │ │ Gold │ ┌──────────┐ │ CSV/JSON │──────────│ Custom │───────→│ │ │ │ │ Data │ │ Files │ │ Python │ └────────────┘ └───────────┘ │ Quality │ └──────────┘ └─────────────┘ │ │ (GX) │ │ │ └──────────┘ ┌──────▼──────┐ ┌──────▼──────┐ │ Airflow / │ Orchestration │ Tests dbt │ │ Dagster │◄──────────────────────────→│ CI/CD │ └─────────────┘ └─────────────┘

Stack recommandee : Airbyte + S3/Iceberg + dbt + Airflow + Great Expectations + Metabase | Duree : 6-8 semaines

10. Real-time Pipeline - Stack

Producers → Kafka → Flink/Spark → ClickHouse → Dashboard │ │ │ │ │ └──────────┴─────────┴──────────────┴────────────┘ Schema Registry Alerting (Avro/Protobuf) (Grafana)

Composants

CoucheOutilAlternative
MessagingApache KafkaRedpanda, Pulsar
ProcessingApache FlinkSpark Streaming, Beam
OLAP StoreClickHouseApache Druid, Pinot
DashboardGrafanaSuperset, custom
AlertingGrafana AlertsPagerDuty, OpsGenie

11. Data Mesh - Implementation

4 Principes fondamentaux

  • Domain Ownership : chaque domaine possede ses donnees
  • Data as a Product : SLAs, qualite, documentation
  • Self-serve Platform : infrastructure en libre-service
  • Federated Governance : standards globaux, autonomie locale

Centralise vs Mesh

AspectCentraliseData Mesh
OwnershipEquipe data centraleDomaines metier
ScalabiliteBottleneck centralScalable par domaine
GovernanceCentraliseeFederee
ComplexiteSimple a demarrerNecessite maturite org
Taille ideale< 100 personnes data> 100 personnes data

12. Contribution Open Source

Workflow de contribution

1. Fork le repo sur GitHub
2. git clone + branch feature
3. Code + tests + docs
4. git push + Pull Request
5. Code review + iterations
6. Merge (maintainer)

Ou contribuer (Data)

  • dbt : packages (dbt-utils, dbt-expectations), adapters
  • Airflow : providers, operators, hooks
  • Great Expectations : custom expectations
  • Airbyte : connecteurs source/destination
  • Apache Iceberg : docs, bug fixes
Conseil : Commencez par les issues "good first issue" et les ameliorations de documentation. C'est le moyen le plus rapide d'etre accepte par les maintainers.

13. C4 Model - Documentation Architecture

NiveauNomAudienceContenu
1ContextCOMEX, PM, tousSysteme dans son environnement
2ContainerTech Leads, ArchitectsApps, DBs, queues, APIs
3ComponentDeveloppeursComposants internes d'un container
4CodeDeveloppeursClasses, interfaces (rarement)

Outils

  • Structurizr : DSL + rendu automatique (recommande)
  • PlantUML : C4-PlantUML extension
  • Mermaid : integre dans GitHub Markdown
  • draw.io : drag-and-drop, shapes AWS/GCP/Azure

Structurizr DSL

workspace {
  model {
    user = person "Data Analyst"
    platform = softwareSystem "Data Platform" {
      ingestion = container "Airbyte"
      warehouse = container "Snowflake"
      transform = container "dbt"
      bi = container "Metabase"
    }
    user -> bi "Consulte dashboards"
    bi -> warehouse "SQL queries"
    transform -> warehouse "Transformations"
    ingestion -> warehouse "Raw data load"
  }
  views {
    systemContext platform "Context" {
      include *
      autoLayout
    }
    container platform "Containers" {
      include *
      autoLayout
    }
  }
}

14. ADR - Architecture Decision Record

# ADR-NNN : [Titre de la decision]

## Status
[Proposed | Accepted | Deprecated | Superseded]

## Date
YYYY-MM-DD

## Context
Probleme business et technique a resoudre.
Contraintes : budget, timeline, equipe, legacy.

## Decision
La decision prise avec justification.

## Alternatives considerees
| Option | Avantages | Inconvenients | Rejetee car |
|--------|-----------|---------------|-------------|
| Option A | ... | ... | ... |
| Option B | ... | ... | ... |

## Consequences
### Positives
+ [Avantage 1]
+ [Avantage 2]
### Negatives
- [Inconvenient 1]
- [Risque mitige par ...]

## Related ADRs
- ADR-XXX (depend de)
- ADR-YYY (remplace)
Outil CLI : npm install -g adr-log pour generer automatiquement un index des ADRs. Stockez-les dans docs/adr/ du repo.

15. Stakeholder Management

Matrice Pouvoir / Interet

Haut Interet Bas Interet ┌─────────────────┬─────────────────┐ Haut │ GERER ETROIT │ SATISFAIRE │ Pouvoir│ (CEO, CTO, │ (CFO, Legal, │ │ VP Data) │ Compliance) │ ├─────────────────┼─────────────────┤ Bas │ INFORMER │ MONITORER │ Pouvoir│ (Data Analysts, │ (Dev Teams, │ │ Data Scientists│ Ops Teams) │ └─────────────────┴─────────────────┘

Communication par audience

AudienceFormatFrequenceContenu
Board / C-level3 slides maxTrimestrielROI, risques, roadmap
VP / DirectorsDashboard + recapMensuelKPIs, progression, blockers
Tech LeadsADR + diagramsHebdoDecisions tech, trade-offs
Data TeamStand-up + wikiQuotidienTasks, impediments

16. ROI Data Platform - Formules

ROI = (Gains annuels - Cout total) / Cout total x 100 Gains typiques : Reduction temps reporting : heures x cout_horaire x nb_analystes Reduction churn client : % amelioration x revenu_moyen x nb_clients Automatisation : nb_processus x temps_manuel_economise Time-to-insight : jours_avant - jours_apres → valeur business Couts typiques : Licences : Snowflake, dbt Cloud, outils BI Infra cloud : compute + storage + network Equipe : salaires + formation + recrutement Implementation : consulting si externe

Presentation COMEX - Template 3 slides

  • Slide 1 - Le Probleme : "Nous perdons X EUR/an parce que..." (business, pas technique)
  • Slide 2 - La Solution : 1 diagramme C4 Level 1, 3 bullet points max
  • Slide 3 - Le ROI : Investissement X EUR, retour Y EUR/an, payback Z mois

17. Data Team - Roles & Structure

RoleFocusOutils principauxOutputSalaire FR (2026)
Data EngineerPipelines, infra dataPython, Spark, Airflow, dbtPipelines fiables, data quality50-85K EUR
Analytics EngineerTransformation, modelingdbt, SQL, GitModeles analytiques, docs50-80K EUR
Data AnalystAnalyse, reportingSQL, BI tools, ExcelDashboards, insights40-65K EUR
Data ScientistML, statistiquesPython, Jupyter, sklearnModeles predictifs55-90K EUR
Data ArchitectDesign, strategieC4, ADR, multi-cloudArchitecture, standards70-130K EUR
Platform EngineerInfrastructure dataTerraform, K8s, DockerSelf-serve platform55-90K EUR

Ratios recommandes

Taille entrepriseDEAEDADSArchitect
Startup (< 100)1-211-20-10 (DE cumule)
Mid-Market (100-1K)3-52-33-51-31
Enterprise (1K+)5-153-810+5+2-3

18. Vendor Evaluation - Scoring Matrix

CriterePoidsScore (1-5)Pondere
Fonctionnalites25%__
Performance / Scalabilite20%__
Cout (TCO sur 3 ans)20%__
Facilite d'integration15%__
Support & Communaute10%__
Lock-in risk10%__

Build vs Buy

FacteurFavorise BuildFavorise Buy
Core businessAvantage competitifCommodity
EquipeExpertise interne forteEquipe limitee
TimelinePas d'urgenceTime-to-market critique
BudgetCapEx prefereOpEx prefere
MaintenanceCapacite long termePrefere deleguer

19. Data Strategy Roadmap - Template

Structure en 4 phases

PhaseDureeFocusLivrables
Discovery2-4 semAssessment etat actuelAudit data, interviews, pain points
Design4-6 semArchitecture cibleADRs, C4 diagrams, budget
Build3-6 moisImplementation MVPPlatform v1, 2-3 use cases
Scale6-12 moisAdoption, optimisationSelf-serve, FinOps, governance

Frameworks de priorisation

  • RICE : Reach x Impact x Confidence / Effort
  • MoSCoW : Must / Should / Could / Won't
  • Value vs Effort : matrice 2x2 (quick wins en premier)
Regle d'or : Commencez par 1-2 use cases a haute valeur et faible effort (quick wins) pour demontrer la valeur de la data platform avant d'investir dans l'infrastructure lourde.

20. RACI & Checklist Leadership

Matrice RACI Data Platform

ActiviteData ArchitectDE LeadPMBusiness
Architecture designRCII
Tech decisions (ADR)ARII
Pipeline developmentCRAI
Data quality rulesCRIA
Budget & roadmapRCAI
Vendor selectionRCAI

R = Responsible, A = Accountable, C = Consulted, I = Informed

Checklist Data Architect Leader

  • ADRs a jour pour chaque decision majeure
  • Architecture Review Board mensuel
  • Data quality dashboard visible par tous
  • Roadmap data mise a jour trimestriellement
  • 1:1 hebdo avec chaque tech lead
  • Blog interne / newsletter data mensuel
  • Skills matrix de l'equipe a jour
  • Budget FinOps revise mensuellement