Phase 6 - Specialisation & Leadership | Data Architect Academy

Introduction : Specialisation & Leadership

40 min Strategique

Objectifs de cette lecon

Comprendre la transition du praticien vers le leader en Data Architecture
Identifier les 3 piliers de la specialisation : certifications, portfolio, leadership
Cartographier les trajectoires de carriere possibles
Evaluer votre positionnement actuel et definir votre plan de croissance

Vous avez parcouru un long chemin depuis la Phase 1. Vous maitrisez les fondamentaux, la modelisation, le cloud, le streaming et le DataOps. Maintenant, la question cruciale se pose : comment passer de "je sais faire" a "je suis reconnu pour mon expertise" ? Cette phase est votre accelerateur de carriere. Les certifications prouvent votre savoir, le portfolio demontre votre savoir-faire, et le leadership affirme votre savoir-etre. Ces trois piliers ensemble font la difference entre un bon technicien et un architecte qui influence les decisions strategiques.

La Transition : Praticien vers Leader

La majorite des professionnels data restent bloques au niveau "praticien avance" pendant des annees. Ils maitrisent les outils, ecrivent des pipelines performants, mais ne franchissent jamais le cap vers le leadership technique. Cette phase vous donne les cles pour effectuer cette transition.

Evolution de Carriere du Data Architect

  PRATICIEN                    EXPERT                      LEADER
  ══════════                   ═══════                     ═══════

  Annees 0-3                   Annees 3-7                  Annees 7+
  ─────────                    ─────────                   ─────────

  ┌────────────────┐     ┌────────────────────┐     ┌──────────────────────┐
  │ Data Engineer   │     │ Senior Data        │     │ Principal Architect  │
  │ Junior/Mid     │────→│ Architect           │────→│ / Chief Data Officer │
  └────────────────┘     └────────────────────┘     └──────────────────────┘

  Competences :           Competences :                Competences :
  - SQL, Python           - Design patterns            - Vision strategique
  - ETL basique           - Cloud multi-provider       - Stakeholder mgmt
  - Un cloud provider     - Data Governance            - Team building
  - CI/CD basique         - Cost optimization          - Vendor management
                          - Certifications             - Architecture board
                                                       - Thought leadership

  Salaire : 45-65K EUR    Salaire : 70-110K EUR        Salaire : 120-200K+ EUR

Les 3 Piliers de la Specialisation

Pilier 1 : Certifications

Validez vos competences objectivement
Signal fort pour les recruteurs (filtrage CV)
Accedez a des postes senior
ROI moyen : +15-25% de salaire

Certifications cles : CDMP, SnowPro, GCP PDE, AWS Data Analytics, Databricks

Pilier 2 : Portfolio & Projets

Demontrez votre capacite a livrer
Projets end-to-end visibles publiquement
Contributions open source
Blog technique, conferences

Impact : Differenciation en entretien, personal branding, reseau professionnel

Le Pilier 3 : Leadership & Communication

Les architectes les plus influents ne sont pas toujours les plus techniques. Ce qui les distingue, c'est leur capacite a communiquer une vision, a aligner les parties prenantes, et a faire adopter des decisions. Un Architecture Decision Record (ADR) bien redige vaut mieux que 10 POCs non documentes. Le leadership technique est une competence qui se cultive deliberement.

Trajectoires de Carriere

Trajectoire	Focus	Certifications recommandees	Salaire cible (EUR)
Cloud Data Architect	Infrastructure cloud, multi-provider	AWS SA Pro, GCP PDE, Azure DE	90-140K
Data Platform Lead	Lakehouse, streaming, DataOps	Databricks, Confluent, Snowflake	100-150K
Data Governance Lead	DMBOK, compliance, data quality	CDMP, DGSP, ISO 27001	85-130K
Chief Data Officer	Strategie, organisation, ROI	CDMP Practitioner + MBA/leadership	150-250K+
Freelance / Consultant	Multi-client, expertise nichee	3+ certifications majeures	800-1500/jour

Parcours de Marie - De Data Engineer a Principal Architect en 4 ans

Marie etait Data Engineer mid-level dans une fintech parisienne, salaire 55K EUR. En 18 mois, elle a obtenu 3 certifications (CDMP Associate, Snowflake SnowPro Core, AWS Data Analytics), lance un blog technique avec 12 articles de fond, et presente a 2 meetups locaux.

Mois 0-6 : CDMP Associate + premiers articles de blog
Mois 6-12 : SnowPro Core + projet open source (dbt package)
Mois 12-18 : AWS Data Analytics + talk meetup Paris Data
Resultat : Recrutee comme Senior Data Architect chez un grand groupe, 95K EUR (+73%)
Mois 24-48 : Promue Principal Architect, equipe de 8 personnes, 135K EUR

"Les certifications m'ont ouvert la porte, le portfolio m'a fait passer l'entretien, et le leadership m'a fait promouvoir." - Marie L., Principal Data Architect

Salaires par Certification (Marche Francais 2025)

Certification	Salaire moyen sans	Salaire moyen avec	Delta
CDMP Associate	60K EUR	75K EUR	+25%
Snowflake SnowPro Core	62K EUR	80K EUR	+29%
GCP Professional Data Engineer	65K EUR	88K EUR	+35%
AWS Data Analytics Specialty	65K EUR	90K EUR	+38%
Databricks Data Engineer	63K EUR	85K EUR	+35%
3+ certifications combinees	65K EUR	110K EUR	+69%

Attention aux fausses promesses

Ces chiffres representent des moyennes de marche. Une certification seule ne garantit pas une augmentation. Elle doit etre combinee avec de l'experience reelle et la capacite a demontrer la valeur en entretien. Les entreprises paient pour le combo certification + experience prouvee + soft skills.

Le "Collecteur de Certifications"

Certains professionnels accumulent 8, 10 voire 15 certifications sans jamais approfondir un domaine. Ils passent d'un examen a l'autre en mode "bachotage" sans experience pratique. Resultat : ils echouent aux entretiens techniques parce qu'ils ne peuvent pas expliquer en profondeur ce qu'ils ont "certifie". Privilegiez 3-4 certifications strategiques combinees avec des projets reels plutot que de devenir un "badge collector".

Quels sont les 3 piliers de la specialisation pour un Data Architect ?

1. Certifications : Validation objective des competences (CDMP, cloud, plateformes). 2. Portfolio & Projets : Demonstration concrete du savoir-faire (projets open source, blog, conferences). 3. Leadership & Communication : Capacite a influencer les decisions, gerer les parties prenantes, et communiquer une vision technique. Ces trois piliers sont complementaires et se renforcent mutuellement.

Pourquoi les certifications seules ne suffisent-elles pas ?

Les certifications valident un niveau de connaissance theorique, mais les employeurs recherchent la combinaison certification + experience pratique + soft skills. Un candidat certifie qui ne peut pas expliquer un cas d'usage reel ou resoudre un probleme en live sera moins valorise qu'un candidat avec moins de certifications mais une experience demontrable solide. Le portfolio et le leadership comblent ce gap.

CDMP - Certified Data Management Professional (DAMA)

55 min Intermediaire

Objectifs de cette lecon

Comprendre le framework DAMA-DMBOK et ses 14 domaines de connaissances
Maitriser la structure de l'examen CDMP (Associate, Practitioner, Master)
Elaborer une strategie d'etude efficace pour chaque niveau
S'entrainer sur des questions types representatives de l'examen

Le CDMP est LA certification de reference pour quiconque veut prouver sa maitrise de la gestion des donnees dans sa globalite. Contrairement aux certifications cloud qui se concentrent sur un provider, le CDMP couvre l'ensemble du spectre : gouvernance, qualite, metadata, securite, architecture. C'est souvent le premier signal que les recruteurs recherchent pour les postes de Data Architect senior et de Chief Data Officer. Je recommande de commencer par le CDMP Associate avant toute autre certification.

Le Framework DAMA-DMBOK 2

Le DAMA-DMBOK (Data Management Body of Knowledge) est le reference framework international pour la gestion des donnees. Il definit 11 domaines principaux avec la Data Governance au centre, plus 3 domaines transversaux. L'examen CDMP est entierement base sur ce framework.

DAMA-DMBOK 2 - Roue des Connaissances

                        ┌───────────────────────┐
                        │   DATA GOVERNANCE     │
                        │   (Domaine Central)   │
                        │                       │
                        │  Politiques, Standards│
                        │  Roles, Metriques     │
                        └───────────┬───────────┘
                                    │
          ┌─────────────────────────┼─────────────────────────┐
          │                         │                         │
  ┌───────▼──────┐   ┌─────────────▼──────────┐   ┌─────────▼────────┐
  │ Data Quality │   │ Data Architecture      │   │ Data Modeling    │
  │ Management   │   │ & Design               │   │ & Design         │
  └──────────────┘   └────────────────────────┘   └──────────────────┘
  ┌──────────────┐   ┌────────────────────────┐   ┌──────────────────┐
  │ Data Storage │   │ Data Security          │   │ Data Integration │
  │ & Operations │   │ Management             │   │ & Interop        │
  └──────────────┘   └────────────────────────┘   └──────────────────┘
  ┌──────────────┐   ┌────────────────────────┐   ┌──────────────────┐
  │ Document &   │   │ Reference & Master     │   │ Data Warehousing │
  │ Content Mgmt │   │ Data Management        │   │ & BI             │
  └──────────────┘   └────────────────────────┘   └──────────────────┘
  ┌──────────────┐   ┌────────────────────────┐
  │ Metadata     │   │ Big Data & Data        │
  │ Management   │   │ Science                │
  └──────────────┘   └────────────────────────┘

  Transversaux : Ethics, Change Management, AI/ML Integration

Les 14 Domaines de Connaissances

#	Domaine	Poids Examen	Sujets Cles
1	Data Governance	11%	Politiques, stewardship, data council, metriques
2	Data Architecture	6%	Frameworks, data flows, integration patterns
3	Data Modeling & Design	11%	Conceptuel, logique, physique, notation
4	Data Storage & Ops	6%	DBMS, performance, recovery, database admin
5	Data Security	6%	Classification, acces, encryption, RGPD, audit
6	Data Integration	6%	ETL, CDC, API, messaging, data virtualization
7	Document & Content	6%	Taxonomies, records management, ECM
8	Reference & Master Data	11%	MDM patterns, golden record, matching, merging
9	Data Warehousing & BI	11%	Dimensional modeling, OLAP, ETL, reporting
10	Metadata Management	11%	Types metadata, catalogue, lineage, glossaire
11	Data Quality	11%	Dimensions, profiling, cleansing, monitoring
12	Big Data & Data Science	2%	Hadoop, Spark, ML basics, use cases
13	Data Ethics	2%	Bias, privacy, transparency, regulations
14	AI/ML Integration	-	Ajoute en DMBOK 2.1, pas encore dans l'examen

Structure de l'Examen CDMP

Niveau	Score requis	Format	Duree	Cout
Associate	60%	100 QCM (choix multiples)	90 minutes	411 USD
Practitioner	70%	100 QCM + 2 specialites	90 min + 2x90 min	411 + 311 USD x2
Master	80%	100 QCM + 2 specialites + oral	Variable	Sur demande

Strategie d'etude optimale pour le CDMP

Concentrez 60% de votre temps d'etude sur les 5 domaines les plus testes (Governance, Data Modeling, Master Data, DWH/BI, Metadata, Data Quality = 55% de l'examen). Lisez le DMBOK 2 au moins une fois integralement, puis relisez les chapitres cles. Completez avec les ressources de DAMA International et les examens blancs sur le site officiel. Budget temps : 6-8 semaines a 10h/semaine pour le niveau Associate.

Questions Types CDMP

Exemple 1 : Data Governance

Question : Quel role est principalement responsable de definir les regles de qualite des donnees pour un domaine metier specifique ?

A) Data Steward
B) Data Owner
C) Database Administrator
D) Chief Data Officer

Reponse : A) Data Steward. Le Data Steward est le "gardien" operationnel des donnees pour un domaine. Il definit les regles de qualite, valide les definitions metier, et s'assure que les politiques de gouvernance sont appliquees. Le Data Owner est responsable de l'approbation strategique, pas de la definition operationnelle des regles.

Exemple 2 : Master Data Management

Question : Dans un pattern MDM "Registry", ou reside la donnee maitre ?

A) Dans un hub central qui remplace les systemes sources
B) Dans les systemes sources, avec un index central qui les relie
C) Dans un data lake partage
D) Uniquement dans le data warehouse

Reponse : B) Le pattern Registry ne deplace pas les donnees. Il cree un index central (registre) qui pointe vers les enregistrements dans chaque systeme source. C'est l'approche la moins invasive mais aussi la moins coherente. Le pattern Consolidation copie dans un hub, et le pattern Coexistence synchronise bidirectionnellement.

Temoignage : Julien, CDMP Practitioner - Passage de 72K a 105K EUR

Julien, Data Architect dans une banque, a obtenu le CDMP Practitioner avec les specialites Data Governance et Data Quality. Il a ensuite utilise le framework DMBOK pour structurer une initiative de gouvernance qui a reduit les erreurs de reporting reglementaire de 40%.

Investissement : 3 mois de preparation, ~800 EUR (livres + examens)
Resultat direct : Promotion interne, +33K EUR de salaire annuel
Resultat indirect : Reconnu comme expert gouvernance, invite a des conferences

"Le CDMP m'a donne le vocabulaire et le framework pour parler aux C-levels. Avant, j'etais le 'gars technique'. Apres, j'etais l'expert qui structurait la strategie data." - Julien R., Senior Data Architect

Ressources officielles indispensables

1. DAMA-DMBOK 2 (livre, ~600 pages) - La bible de la gestion des donnees
2. Site DAMA International (dama.org) - Examens blancs et guides d'etude
3. Communaute DAMA France - Meetups et partage d'experience
4. Cours Udemy "CDMP Exam Prep" (Mark Plessner) - 20h de video structuree

Quels sont les 5 domaines a plus fort poids dans l'examen CDMP ?

Les 5 domaines a 11% chacun (totalisant 55% de l'examen) sont : 1. Data Governance, 2. Data Modeling & Design, 3. Reference & Master Data Management, 4. Data Warehousing & BI, 5. Metadata Management, et 6. Data Quality Management. Ce sont les domaines prioritaires pour la preparation. Les domaines a 6% (Architecture, Storage, Security, Integration, Document/Content) et ceux a 2% (Big Data, Ethics) necessitent moins de temps d'etude.

Snowflake SnowPro Core Certification

55 min Intermediaire

Objectifs de cette lecon

Maitriser les domaines de l'examen SnowPro Core
Comprendre l'architecture unique de Snowflake (multi-cluster shared data)
Repondre aux questions sur le performance tuning et le data sharing
Gerer les questions d'account management et securite

Snowflake est devenu incontournable dans l'ecosysteme data moderne. La certification SnowPro Core est un excellent signal pour le marche car elle prouve que vous comprenez non seulement Snowflake mais aussi les concepts fondamentaux du cloud data warehousing. C'est aussi l'une des certifications les plus accessibles : 4-6 semaines de preparation suffisent si vous avez deja une experience SQL solide. Le taux de reussite est d'environ 65%, ce qui la rend serieuse sans etre insurmontable.

Domaines de l'Examen SnowPro Core

Domaine	Poids	Sujets principaux
Snowflake Cloud Data Platform Features & Architecture	25%	Architecture 3 couches, cloud services, virtual warehouses, storage
Account Access & Security	15%	RBAC, network policies, MFA, encryption, data masking
Performance Concepts	15%	Clustering, caching, query profiling, warehouse sizing
Data Loading & Unloading	10%	COPY INTO, stages, file formats, Snowpipe, data pipelines
Data Transformations	20%	SQL functions, stored procedures, UDFs, tasks, streams
Data Protection & Sharing	15%	Time travel, fail-safe, cloning, data sharing, marketplace

Architecture Snowflake - Le Coeur de l'Examen

Architecture Multi-Cluster Shared Data de Snowflake

  ┌─────────────────────────────────────────────────────────────┐
  │                    CLOUD SERVICES LAYER                     │
  │  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐  │
  │  │ Query     │  │ Metadata │  │ Access   │  │ Security │  │
  │  │ Optimizer │  │ Manager  │  │ Control  │  │ & Auth   │  │
  │  └──────────┘  └──────────┘  └──────────┘  └──────────┘  │
  │  Infrastructure Management, Transaction Management         │
  └─────────────────────────┬───────────────────────────────────┘
                            │
  ┌─────────────────────────▼───────────────────────────────────┐
  │                    COMPUTE LAYER (Virtual Warehouses)       │
  │                                                             │
  │  ┌──────────────┐  ┌──────────────┐  ┌──────────────┐     │
  │  │ VWH: ETL     │  │ VWH: BI      │  │ VWH: DS      │     │
  │  │ X-Large      │  │ Medium       │  │ Large        │     │
  │  │ (cluster x2) │  │ (auto-scale) │  │ (on-demand)  │     │
  │  └──────────────┘  └──────────────┘  └──────────────┘     │
  │  Elastique, independant, facturation a la seconde           │
  └─────────────────────────┬───────────────────────────────────┘
                            │
  ┌─────────────────────────▼───────────────────────────────────┐
  │                    STORAGE LAYER (Centralisee)              │
  │                                                             │
  │  ┌─────────────────────────────────────────────────────┐   │
  │  │  Micro-partitions (columnar, compressed, immutable) │   │
  │  │  S3 / Azure Blob / GCS (selon cloud provider)       │   │
  │  │  Metadata automatique pour pruning                   │   │
  │  └─────────────────────────────────────────────────────┘   │
  └─────────────────────────────────────────────────────────────┘

Les 3 couches Snowflake - Point cle de l'examen

Storage Layer : Donnees stockees en micro-partitions columnar compressees. Separation totale du compute. Compute Layer : Virtual Warehouses independants qui peuvent etre redimensionnes a chaud. Pas de conflit de ressources entre workloads. Cloud Services Layer : Cerveau de Snowflake - optimisation des requetes, gestion des transactions, securite, metadata. Facture seulement si > 10% de la consommation compute quotidienne.

Performance Tuning - Questions Frequentes

SQL

-- Verifier le clustering d'une table
SELECT SYSTEM$CLUSTERING_INFORMATION('ma_base.mon_schema.ma_table', '(date_col)');

-- Definir une clustering key
ALTER TABLE orders CLUSTER BY (order_date, region);

-- Verifier le query profile pour identifier les bottlenecks
-- Via l'interface web : Query History > Query Profile
-- Chercher : "Bytes scanned", "Partitions scanned vs total", "Spillage"

-- Optimisation : Materialized Views pour requetes repetitives
CREATE MATERIALIZED VIEW mv_daily_sales AS
SELECT date_trunc('day', order_date) AS day,
       region,
       SUM(amount) AS total_sales,
       COUNT(*) AS num_orders
FROM orders
GROUP BY 1, 2;

-- Result cache (automatique, 24h) vs Warehouse cache (SSD local)
-- Le result cache est gratuit et retourne les resultats identiques instantanement
-- Le warehouse cache persiste tant que le warehouse est actif

Data Sharing & Marketplace

Direct Data Sharing

Partage zero-copy entre comptes
Le consommateur ne paie que le compute
Temps reel : les donnees sont toujours a jour
Pas de copie, pas de pipeline a maintenir
Ideal pour intra-groupe ou partenaires

Snowflake Marketplace

Place de marche publique de datasets
Donnees meteo, financieres, geospatiales...
Monetisation possible pour les providers
Listings gratuits et payants
Ideal pour enrichir ses analyses

SQL

-- Creer un Share (cote provider)
CREATE SHARE sales_share;
GRANT USAGE ON DATABASE analytics TO SHARE sales_share;
GRANT USAGE ON SCHEMA analytics.public TO SHARE sales_share;
GRANT SELECT ON TABLE analytics.public.sales TO SHARE sales_share;

-- Ajouter un consommateur
ALTER SHARE sales_share ADD ACCOUNTS = 'CONSUMER_ACCOUNT_ID';

-- Cote consommateur : creer une database a partir du share
CREATE DATABASE shared_analytics FROM SHARE provider_account.sales_share;
SELECT * FROM shared_analytics.public.sales; -- Zero-copy, temps reel

Securite & Account Management

Points critiques pour l'examen

Hierarchie des roles : ACCOUNTADMIN > SECURITYADMIN > SYSADMIN > Custom Roles > PUBLIC. Ne jamais utiliser ACCOUNTADMIN pour les operations courantes. Network Policies : Limitent les IPs autorisees, s'appliquent au niveau account ou user. Dynamic Data Masking : Politique qui masque les donnees sensibles selon le role (ex: afficher les 4 derniers chiffres de carte bancaire uniquement).

Question d'examen type : Time Travel & Fail-Safe

Situation : Un utilisateur a accidentellement supprime (DROP TABLE) une table critique il y a 3 jours. L'edition est Enterprise (Time Travel max 90 jours). Comment recuperer les donnees ?

Reponse : Utiliser UNDROP TABLE nom_table; si la table est encore en Time Travel (0-90 jours selon la config). Si le Time Travel est expire, les donnees passent en Fail-Safe (7 jours supplementaires), mais seul le support Snowflake peut les recuperer. Fail-Safe n'est pas accessible par l'utilisateur.

Impact salarial : SnowPro Core sur le marche

D'apres une enquete menee aupres de 450 professionnels data en France (2024), les titulaires du SnowPro Core constatent un avantage significatif :

Data Engineer avec SnowPro : 68K EUR median (vs 55K sans)
Data Architect avec SnowPro : 88K EUR median (vs 72K sans)
Consultant Snowflake certifie : 900-1200 EUR/jour en TJM
Delai retour sur investissement : 2-4 mois apres l'obtention

"La SnowPro Core m'a permis de passer chez un Snowflake Partner en doublant mon TJM. L'examen est accessible mais demande une vraie comprehension de l'architecture, pas juste du SQL." - Karim M., Consultant Data

Quelle est la difference entre le Result Cache, le Warehouse Cache et le Metadata Cache dans Snowflake ?

Result Cache : Stocke les resultats exacts d'une requete pendant 24h. Gratuit, pas besoin de warehouse actif. Fonctionne si la requete et les donnees sont identiques. Warehouse Cache : Cache SSD local du virtual warehouse. Stocke les donnees lues recemment. Actif tant que le warehouse tourne. Accelere les requetes similaires (pas identiques). Metadata Cache : Gere par la Cloud Services Layer. Stocke les infos min/max des micro-partitions pour le pruning. Toujours actif, completement transparent.

Google Cloud Professional Data Engineer

60 min Avance

Objectifs de cette lecon

Maitriser les domaines de l'examen GCP Professional Data Engineer
Comprendre l'optimisation BigQuery et les design patterns
Maitriser Dataflow (Apache Beam) et Pub/Sub pour le streaming
Integrer les services ML de GCP dans une architecture data

La certification GCP Professional Data Engineer est l'une des plus respectees du marche. Google a concu un examen qui teste vraiment la comprehension architecturale, pas juste la memorisation de services. Vous devrez analyser des scenarios reels et choisir la meilleure architecture parmi plusieurs options valides. C'est difficile mais extremement valorisant : les titulaires de cette certification sont parmi les mieux payes du secteur data. Comptez 8-12 semaines de preparation intensive.

Domaines de l'Examen GCP PDE

Domaine	Poids	Services cles
Designing Data Processing Systems	22%	BigQuery, Dataflow, Dataproc, Cloud Composer
Ingesting & Processing Data	25%	Pub/Sub, Dataflow, Datastream, Cloud Functions
Storing Data	20%	BigQuery, Cloud Storage, Bigtable, Spanner, Firestore
Preparing & Using Data for Analysis	15%	BigQuery ML, Vertex AI, Looker, Dataprep
Maintaining & Automating	18%	Cloud Composer, Monitoring, IAM, DLP

BigQuery - L'Etoile de l'Examen

BigQuery represente environ 30-40% des questions de l'examen. Vous devez maitriser non seulement le SQL mais surtout l'optimisation des couts et les patterns architecturaux.

SQL

-- OPTIMISATION 1 : Partitionnement
-- Reduire le scan en partitionnant par date
CREATE TABLE `project.dataset.events`
(
  event_id STRING,
  event_type STRING,
  user_id STRING,
  event_timestamp TIMESTAMP,
  payload JSON
)
PARTITION BY DATE(event_timestamp)
CLUSTER BY event_type, user_id
OPTIONS (
  partition_expiration_days = 365,
  require_partition_filter = true  -- Force le filtrage, evite full scan
);

-- OPTIMISATION 2 : Eviter SELECT *
-- Mauvais : SELECT * FROM events (scanne toutes les colonnes)
-- Bon : SELECT event_type, user_id FROM events WHERE DATE(event_timestamp) = '2025-01-15'

-- OPTIMISATION 3 : Materialized Views
CREATE MATERIALIZED VIEW `project.dataset.daily_metrics`
AS SELECT
  DATE(event_timestamp) AS event_date,
  event_type,
  COUNT(*) AS event_count,
  COUNT(DISTINCT user_id) AS unique_users
FROM `project.dataset.events`
GROUP BY 1, 2;

-- OPTIMISATION 4 : BI Engine pour la BI interactive
-- Reservation de memoire pour accelerer les dashboards Looker
-- Configuration via Console > BigQuery > BI Engine

Slots BigQuery : Flat-Rate vs On-Demand

On-Demand : Facturation par volume de donnees scannees (7.50 USD/TB en Europe). Ideal pour les workloads irreguliers. Flat-Rate (Editions) : Achat de capacite compute (slots) avec engagement. Standard (100 slots), Enterprise (100+ slots), Enterprise Plus. Ideal pour les charges previsibles et volumineuses. Question type : "Votre equipe depense 15K USD/mois en on-demand BigQuery. Recommandez-vous de passer en flat-rate ?" Reponse : Calculez le nombre de slots equivalents et comparez.

Dataflow & Apache Beam

Pipeline Dataflow - Streaming & Batch Unifie

  ┌──────────┐     ┌──────────────┐     ┌─────────────────────┐     ┌──────────┐
  │ Pub/Sub  │────→│  Dataflow    │────→│  Transformations    │────→│ BigQuery │
  │ (events) │     │  Runner      │     │                     │     │ (sink)   │
  └──────────┘     │              │     │ - Window (Fixed,    │     └──────────┘
                   │ Auto-scaling │     │   Sliding, Session) │
  ┌──────────┐     │ Exactly-once │     │ - GroupByKey        │     ┌──────────┐
  │ GCS      │────→│ Fault-       │     │ - Combine           │────→│ GCS      │
  │ (batch)  │     │ tolerant     │     │ - Filter, Map       │     │ (Parquet)│
  └──────────┘     └──────────────┘     │ - Side Inputs       │     └──────────┘
                                        └─────────────────────┘

  Apache Beam SDK : meme code pour batch ET streaming
  Runner : Dataflow (GCP), Spark, Flink, Direct

Python

import apache_beam as beam
from apache_beam.options.pipeline_options import PipelineOptions

# Pipeline Dataflow : traitement streaming avec windowing
options = PipelineOptions([
    '--runner=DataflowRunner',
    '--project=my-project',
    '--region=europe-west1',
    '--temp_location=gs://my-bucket/temp',
    '--streaming'
])

with beam.Pipeline(options=options) as p:
    events = (
        p
        | 'Read Pub/Sub' >> beam.io.ReadFromPubSub(
            subscription='projects/my-project/subscriptions/events-sub')
        | 'Parse JSON' >> beam.Map(parse_event)
        | 'Window 5min' >> beam.WindowInto(
            beam.window.FixedWindows(300))  # Fenetre de 5 minutes
        | 'Count by Type' >> beam.combiners.Count.PerKey()
        | 'Format Output' >> beam.Map(format_bq_row)
        | 'Write BigQuery' >> beam.io.WriteToBigQuery(
            table='project:dataset.event_counts',
            schema='event_type:STRING,window_start:TIMESTAMP,count:INTEGER',
            write_disposition=beam.io.BigQueryDisposition.WRITE_APPEND,
            create_disposition=beam.io.BigQueryDisposition.CREATE_IF_NEEDED)
    )

Pub/Sub - Messaging pour le Streaming

Pub/Sub vs Kafka - Question frequente a l'examen

Pub/Sub est le service de messaging serverless de GCP. Contrairement a Kafka, il n'y a pas de partitions a gerer, pas de brokers a scaler, pas de retention configurable par partition. Pub/Sub garantit at-least-once delivery par defaut. Pour exactly-once, combinez avec Dataflow. Utilisez Pub/Sub quand vous etes full GCP. Utilisez Confluent Cloud/Kafka quand vous avez besoin de replay long, d'ordering strict, ou d'un ecosysteme multi-cloud.

Integration ML avec Vertex AI

Service	Usage	Question type
BigQuery ML	ML directement en SQL, modeles simples	"Comment permettre aux analystes SQL de faire du ML sans Python ?"
Vertex AI AutoML	ML sans code pour classification, NLP, vision	"Comment deployer un modele de classification sans equipe ML ?"
Vertex AI Pipelines	Orchestration MLOps, Kubeflow sous-jacent	"Comment automatiser le retraining mensuel d'un modele ?"
Vertex AI Feature Store	Feature Store manage par GCP	"Comment servir des features en temps reel pour l'inference ?"

Scenario d'examen type GCP PDE

Situation : Une entreprise e-commerce recoit 50 000 evenements/seconde de clickstream. Ils veulent analyser les parcours utilisateurs en temps reel et stocker les donnees pour l'analyse historique. Budget optimise requis.

Architecture recommandee :

Ingestion : Pub/Sub (serverless, auto-scale, gere les pics)
Processing : Dataflow streaming (windowing 1min, enrichissement)
Stockage temps reel : Bigtable (pour les lookups par user_id, < 10ms)
Stockage analytique : BigQuery (partitionne par date, clustered by user_id)
Monitoring : Cloud Monitoring + alerting sur le lag Pub/Sub

Pourquoi pas Dataproc ? Dataflow est prefere pour le streaming pur car il est serverless et supporte nativement exactly-once avec Pub/Sub. Dataproc (Spark) est mieux pour les workloads batch ou les migrations Hadoop existantes.

Impact carriere : GCP PDE, la certification premium

Selon le rapport Global Knowledge 2024, la GCP Professional Data Engineer est dans le Top 5 des certifications IT les mieux payees au monde. En France :

Salaire median avec GCP PDE : 88K EUR (Data Architect), 95K EUR (Lead)
Freelance : 950-1400 EUR/jour en TJM
Taux de reussite : ~55% au premier passage (examen exigeant)
Validite : 2 ans, recertification necessaire

Quand utiliser Bigtable vs BigQuery pour stocker des donnees dans GCP ?

Bigtable : Base NoSQL colonnaire pour les acces key-value a haute vitesse (< 10ms). Ideal pour les time-series, IoT, profils utilisateurs en temps reel. Pas de SQL, pas de JOINs. BigQuery : Data warehouse serverless pour l'analyse SQL a grande echelle. Ideal pour les requetes analytiques, reporting, ML. Latence en secondes. Regle simple : Bigtable pour le serving temps reel (OLTP-like), BigQuery pour l'analyse (OLAP).

Databricks & AWS Data Certifications

55 min Avance

Objectifs de cette lecon

Comprendre la certification Databricks Certified Data Engineer Associate
Maitriser l'examen AWS Data Analytics Specialty (DAS-C01)
Comparer les deux certifications : contenu, difficulte, valeur marche
Choisir la certification la plus pertinente selon votre trajectoire

Databricks et AWS sont deux ecosystemes dominants mais tres differents. Databricks se concentre sur le Lakehouse avec Spark et Delta Lake. AWS couvre l'ensemble de l'ecosysteme data avec des dizaines de services. La certification Databricks est plus recente et monte en puissance, tandis que l'AWS Data Analytics Specialty est un classique du marche. Mon conseil : choisissez en fonction de la stack utilisee par vos clients/employeurs cibles. Si vous hesitez, commencez par Databricks car le Lakehouse est la tendance dominante.

Databricks Certified Data Engineer Associate

Aspect	Detail
Format	45 questions a choix multiples, 120 minutes
Score requis	70% (environ 32/45 questions)
Cout	200 USD
Validite	2 ans
Prerequis	6+ mois d'experience Databricks/Spark
Taux de reussite	~60% au premier passage

Domaines de l'examen Databricks

Domaine	Poids	Sujets
Databricks Lakehouse Platform	24%	Architecture, Unity Catalog, Delta Lake concepts
ELT with Spark SQL & Python	29%	Transformations, Spark SQL, DataFrames, aggregations
Incremental Data Processing	22%	Structured Streaming, Auto Loader, COPY INTO
Production Pipelines	16%	Delta Live Tables, Jobs, orchestration, testing
Data Governance	9%	Unity Catalog, permissions, data lineage

Python

# Delta Lake - Operations cles pour l'examen
from delta.tables import DeltaTable

# MERGE (Upsert) - Question tres frequente
delta_table = DeltaTable.forPath(spark, "/mnt/data/customers")

delta_table.alias("target").merge(
    updates_df.alias("source"),
    "target.customer_id = source.customer_id"
).whenMatchedUpdate(set={
    "name": "source.name",
    "email": "source.email",
    "updated_at": "current_timestamp()"
}).whenNotMatchedInsertAll().execute()

# Time Travel - Acceder aux versions precedentes
df_v5 = spark.read.format("delta").option("versionAsOf", 5).load("/mnt/data/customers")
df_yesterday = spark.read.format("delta").option("timestampAsOf", "2025-01-14").load("/mnt/data/customers")

# OPTIMIZE & Z-ORDER - Performance tuning
spark.sql("OPTIMIZE customers ZORDER BY (region, signup_date)")
spark.sql("VACUUM customers RETAIN 168 HOURS")  # Nettoyage fichiers obsoletes

Python

# Auto Loader - Ingestion incrementale de fichiers
# Question frequente : difference entre Auto Loader et COPY INTO

# Auto Loader (recommande pour les gros volumes, streaming)
df = (spark.readStream
    .format("cloudFiles")
    .option("cloudFiles.format", "json")
    .option("cloudFiles.schemaLocation", "/mnt/schema/events")
    .option("cloudFiles.inferColumnTypes", "true")
    .load("/mnt/landing/events/"))

df.writeStream \
    .format("delta") \
    .option("checkpointLocation", "/mnt/checkpoints/events") \
    .trigger(availableNow=True) \
    .toTable("bronze.events")

# COPY INTO (plus simple, pour les petits volumes, batch)
# spark.sql("""
#   COPY INTO bronze.events
#   FROM '/mnt/landing/events/'
#   FILEFORMAT = JSON
#   COPY_OPTIONS ('mergeSchema' = 'true')
# """)

AWS Data Analytics Specialty (DAS-C01)

Aspect	Detail
Format	65 questions (QCM + multi-reponse), 180 minutes
Score requis	750/1000 (~75%)
Cout	300 USD
Validite	3 ans
Prerequis recommande	AWS Solutions Architect Associate
Taux de reussite	~50% (examen difficile)

Domaines de l'examen AWS DAS

Domaine	Poids	Services principaux
Collection	18%	Kinesis (Data Streams, Firehose, Analytics), IoT Core, DMS
Storage & Data Management	22%	S3, DynamoDB, Redshift, ElastiCache, Lake Formation
Processing	24%	EMR, Glue, Lambda, Step Functions, Athena
Analysis & Visualization	18%	Athena, Redshift Spectrum, QuickSight, OpenSearch
Security	18%	IAM, KMS, Lake Formation permissions, encryption

Architecture Data Analytics AWS - Services Cles

  INGESTION                STOCKAGE               TRAITEMENT              ANALYSE
  ══════════               ═══════                ══════════              ════════

  ┌───────────┐     ┌───────────────┐     ┌──────────────┐     ┌──────────────┐
  │ Kinesis   │     │ S3            │     │ Glue ETL     │     │ Athena       │
  │ Data      │────→│ (Data Lake)   │────→│ (Spark)      │────→│ (SQL on S3)  │
  │ Streams   │     │               │     │              │     │              │
  └───────────┘     └───────────────┘     └──────────────┘     └──────────────┘

  ┌───────────┐     ┌───────────────┐     ┌──────────────┐     ┌──────────────┐
  │ Kinesis   │     │ Redshift      │     │ EMR          │     │ QuickSight   │
  │ Firehose  │────→│ (DWH)         │────→│ (Hadoop/     │────→│ (BI)         │
  │ (managed) │     │               │     │  Spark)      │     │              │
  └───────────┘     └───────────────┘     └──────────────┘     └──────────────┘

  ┌───────────┐     ┌───────────────┐     ┌──────────────┐     ┌──────────────┐
  │ DMS       │     │ DynamoDB      │     │ Lambda       │     │ OpenSearch   │
  │ (CDC)     │     │ (NoSQL)       │     │ (serverless) │     │ (search/log) │
  └───────────┘     └───────────────┘     └──────────────┘     └──────────────┘

                    ┌───────────────────────────────────────┐
                    │ AWS Lake Formation (Governance Layer)  │
                    │ Catalog, Permissions, Lineage          │
                    └───────────────────────────────────────┘

Comparaison Databricks vs AWS DAS

Databricks Data Engineer

Focus : Lakehouse, Spark, Delta Lake
Ecosysteme unifie (une plateforme)
Plus court (45 questions, 2h)
Plus recent, monte en popularite
Ideal si votre stack est Lakehouse
Salaire moyen : +18% avec certif

AWS Data Analytics Specialty

Focus : Ecosysteme AWS complet (20+ services)
Necessite connaitre de nombreux services
Plus long (65 questions, 3h)
Classique du marche, tres reconnu
Ideal si vos clients sont sur AWS
Salaire moyen : +22% avec certif

Preparer les deux certifications en meme temps

Erreur courante : vouloir passer Databricks ET AWS DAS dans le meme mois. Les deux certifications couvrent des ecosystemes differents avec des philosophies differentes. Le risque est de confondre les concepts et d'echouer aux deux. Recommandation : Passez une certification, pratiquez 2-3 mois en conditions reelles, puis preparez la suivante. L'espacement permet une meilleure retention et une experience plus riche a presenter en entretien.

Temoignage : Sofiane, double certifie Databricks + AWS

Sofiane etait Data Engineer dans une ESN parisienne. En 8 mois, il a obtenu les deux certifications en les espaçant strategiquement.

Mois 1-3 : Preparation Databricks Data Engineer (pratique quotidienne sur Community Edition)
Mois 4 : Passage Databricks - Reussi a 82%
Mois 4-5 : Mise en pratique sur un projet client reel (migration vers Lakehouse)
Mois 5-8 : Preparation AWS DAS (labs sur AWS Free Tier + A Cloud Guru)
Mois 8 : Passage AWS DAS - Reussi a 78%
Resultat : Passage de 52K a 82K EUR (+58%), recrute comme Lead Data Engineer

"Espacer les certifications m'a permis d'appliquer chaque apprentissage en situation reelle. En entretien, je pouvais raconter des histoires concretes, pas juste reciter des specs." - Sofiane B., Lead Data Engineer

Quelle est la difference principale entre Auto Loader et COPY INTO dans Databricks ?

Auto Loader utilise le Structured Streaming pour detecter automatiquement les nouveaux fichiers dans un repertoire cloud. Il est incremental par nature, scalable a des millions de fichiers, et supporte l'inference de schema. COPY INTO est une commande batch SQL qui charge des fichiers avec une semantique idempotente (ne recharge pas les fichiers deja traites). COPY INTO est plus simple mais moins performant pour les gros volumes. Regle : Auto Loader pour les pipelines de production, COPY INTO pour les charges ad hoc ou les petits volumes.

Confluent, dbt & Autres Certifications

50 min Intermediaire

Objectifs de cette lecon

Comprendre la certification Confluent Certified Developer for Apache Kafka
Decouvrir la certification dbt Analytics Engineering
Explorer la certification Terraform Associate pour l'infrastructure data
Evaluer la pertinence de chaque certification selon votre profil

Au-dela des grandes certifications cloud et data, il existe des certifications de niche qui peuvent faire toute la difference. La certification Confluent prouve votre maitrise du streaming, la certification dbt votre expertise en analytics engineering, et Terraform Associate montre que vous savez deployer l'infrastructure as code. Ces certifications specialisees sont particulierement valorisees par les entreprises qui utilisent ces outils specifiques. Un Data Architect avec Confluent + dbt + Terraform est quasiment irresistible pour un poste de Lead Data Platform.

Confluent Certified Developer for Apache Kafka

Aspect	Detail
Format	60 questions a choix multiples, 90 minutes
Score requis	70%
Cout	150 USD
Validite	2 ans
Prerequis	Experience pratique avec Apache Kafka
Taux de reussite	~55%

Domaines de l'examen Confluent

Domaine	Poids	Sujets cles
Application Design	15%	Kafka use cases, design patterns, event-driven architecture
Development	30%	Producer API, Consumer API, configuration, serialization
Deployment / Testing / Monitoring	15%	Cluster config, monitoring metrics, testing strategies
Kafka Streams	15%	KStreams, KTables, joins, windowing, state stores
Kafka Connect	10%	Source/Sink connectors, SMTs, dead letter queues
Confluent Components	15%	Schema Registry, ksqlDB, REST Proxy, Confluent Cloud

Java

// Producer Kafka - Configuration cle pour l'examen
Properties props = new Properties();
props.put("bootstrap.servers", "broker1:9092,broker2:9092");
props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
props.put("value.serializer", "io.confluent.kafka.serializers.KafkaAvroSerializer");
props.put("schema.registry.url", "http://schema-registry:8081");

// Parametres critiques pour l'examen :
props.put("acks", "all");              // Durabilite maximale (attend tous les ISR)
props.put("retries", 3);              // Retry en cas d'erreur temporaire
props.put("enable.idempotence", true); // Exactly-once producer
props.put("max.in.flight.requests.per.connection", 5); // Avec idempotence, ordering garanti
props.put("compression.type", "snappy"); // Compression recommandee

KafkaProducer<String, GenericRecord> producer = new KafkaProducer<>(props);

// Consumer - Configuration critique
props.put("group.id", "order-processing-group");
props.put("auto.offset.reset", "earliest"); // earliest vs latest : question frequente
props.put("enable.auto.commit", false);     // Manual commit pour exactly-once
props.put("isolation.level", "read_committed"); // Pour les transactions

acks=all vs acks=1 vs acks=0

acks=0 : Fire-and-forget, perte de messages possible. Latence minimale. acks=1 : Le leader confirme la reception. Perte possible si le leader crash avant replication. acks=all (ou -1) : Tous les ISR (In-Sync Replicas) confirment. Aucune perte si min.insync.replicas > 1. C'est le parametre le plus teste a l'examen. Combinez toujours acks=all avec min.insync.replicas=2 et replication.factor=3 pour une durabilite maximale.

dbt Analytics Engineering Certification

Aspect	Detail
Format	65 questions a choix multiples, 100 minutes
Score requis	63% (environ 41/65)
Cout	200 USD
Validite	2 ans
Focus	dbt Core + dbt Cloud, analytics engineering principles

SQL

-- dbt Model - Concepts cles pour l'examen

-- 1. Materializations : table, view, incremental, ephemeral
-- Question type : "Quand utiliser incremental vs table ?"
{{ config(
    materialized='incremental',
    unique_key='order_id',
    on_schema_change='sync_all_columns'
) }}

SELECT
    order_id,
    customer_id,
    order_date,
    amount,
    {{ dbt_utils.generate_surrogate_key(['order_id']) }} as order_sk
FROM {{ source('raw', 'orders') }}
{% if is_incremental() %}
    WHERE order_date > (SELECT MAX(order_date) FROM {{ this }})
{% endif %}

-- 2. Tests : schema tests + singular tests
-- schema.yml :
-- models:
--   - name: stg_orders
--     columns:
--       - name: order_id
--         tests:
--           - unique
--           - not_null
--       - name: amount
--         tests:
--           - dbt_expectations.expect_column_values_to_be_between:
--               min_value: 0
--               max_value: 100000

-- 3. Macros et Jinja
{% macro cents_to_euros(column_name) %}
    ROUND({{ column_name }} / 100.0, 2)
{% endmacro %}

HashiCorp Terraform Associate

Pourquoi Terraform pour un Data Architect ?

L'infrastructure data moderne est deployee via Infrastructure as Code (IaC). Terraform est le standard pour provisionner des clusters Databricks, des bases Snowflake, des topiques Kafka, des buckets S3, et des pipelines Dataflow. Un Data Architect qui maitrise Terraform peut automatiser le deploiement complet d'une data platform, de l'infrastructure au pipeline. La certification Terraform Associate valide cette competence transversale cruciale.

HCL

# Terraform - Deploiement d'une infrastructure data
# Exemple : Snowflake + S3 + Glue

# Provider Snowflake
provider "snowflake" {
  account  = var.snowflake_account
  username = var.snowflake_user
  password = var.snowflake_password
  role     = "SYSADMIN"
}

# Warehouse pour l'ETL
resource "snowflake_warehouse" "etl" {
  name           = "ETL_WH"
  warehouse_size = "LARGE"
  auto_suspend   = 120
  auto_resume    = true
  min_cluster_count = 1
  max_cluster_count = 3
  scaling_policy = "ECONOMY"
}

# Database pour les donnees brutes
resource "snowflake_database" "raw" {
  name    = "RAW_DATA"
  comment = "Landing zone pour les donnees brutes"
  data_retention_time_in_days = 30
}

# S3 bucket pour le data lake
resource "aws_s3_bucket" "data_lake" {
  bucket = "company-data-lake-prod"
  tags = {
    Environment = "production"
    ManagedBy   = "terraform"
  }
}

Matrice de Decision : Quelle Certification Choisir ?

Certification	Profil ideal	ROI estime	Difficulte	Prep. (semaines)
Confluent Kafka	Data Engineer streaming, architecte event-driven	+20-30% salaire	Elevee	6-8
dbt Analytics Eng.	Analytics Engineer, Data Engineer moderne	+15-20% salaire	Moderee	3-5
Terraform Associate	Data/Platform Engineer, DevOps data	+10-15% salaire	Moderee	3-4
Combo Confluent + dbt	Lead Data Engineer / Architect	+35-45% salaire	Elevee	10-14

Temoignage : Amina, triple certifiee Confluent + dbt + Terraform

Amina etait Data Engineer dans une startup fintech. En accumulant ces 3 certifications specialisees en 10 mois, elle est devenue l'une des profils les plus recherches du marche parisien.

Avant : 48K EUR, Data Engineer mid-level
Investissement total : ~550 EUR (examens) + 200h de preparation
Apres : 92K EUR, Senior Data Platform Engineer chez un scale-up
Evolution : 3 offres d'emploi en 2 semaines apres mise a jour LinkedIn

"Les certifications de niche m'ont positionne comme specialiste, pas generaliste. Les recruteurs venaient a moi au lieu de l'inverse. Le combo streaming + analytics + IaC est exactement ce que cherchent les entreprises data-native." - Amina K., Senior Data Platform Engineer

Quelle est la difference entre acks=all et min.insync.replicas dans Kafka ?

acks=all est un parametre du producer : il attend que tous les replicas ISR confirment l'ecriture avant de considerer le message comme envoye. min.insync.replicas est un parametre du broker/topic : il definit le nombre minimum de replicas qui doivent etre en sync pour accepter une ecriture avec acks=all. Si le nombre d'ISR tombe sous ce seuil, le producer recoit une exception NotEnoughReplicasException. Configuration recommandee : replication.factor=3, min.insync.replicas=2, acks=all. Cela tolere la perte d'un broker sans perte de donnees.

Strategie de Preparation aux Certifications

50 min Strategique

Objectifs de cette lecon

Construire un plan d'etude structure sur 3 et 6 mois
Maitriser la repetition espacee pour une retention optimale
Utiliser les examens blancs comme outil d'apprentissage
Evaluer le ROI de chaque certification et prioriser intelligemment

J'ai vu des centaines de professionnels preparer des certifications. Ceux qui reussissent ne sont pas les plus intelligents, ce sont les plus methodiques. La cle est d'avoir un plan clair, de pratiquer regulierement avec de la repetition espacee, et de simuler les conditions d'examen. Ne faites jamais l'erreur de "lire passivement" le manuel pendant 2 mois puis de tenter l'examen. La methode active (questions, flashcards, labs) est 3 fois plus efficace que la lecture passive.

Plan d'Etude 3 Mois - Une Certification Majeure

Plan de Preparation 3 Mois (10-12h/semaine)

  MOIS 1 : FONDATIONS                MOIS 2 : APPROFONDISSEMENT       MOIS 3 : MAITRISE
  ══════════════════                  ═══════════════════════          ════════════════

  Semaine 1-2 :                      Semaine 5-6 :                    Semaine 9-10 :
  ┌────────────────────┐             ┌────────────────────┐           ┌────────────────────┐
  │ Lecture guide       │             │ Labs pratiques      │           │ Examens blancs      │
  │ officiel (survol)   │             │ (2h/jour)           │           │ (conditions reelles)│
  │ Video cours         │             │ Flashcards Anki     │           │ Analyse des erreurs │
  │ (Udemy, A Cloud     │             │ (revision quotidien)│           │ Revision ciblee     │
  │  Guru, Coursera)    │             │                     │           │                     │
  └────────────────────┘             └────────────────────┘           └────────────────────┘

  Semaine 3-4 :                      Semaine 7-8 :                    Semaine 11-12 :
  ┌────────────────────┐             ┌────────────────────┐           ┌────────────────────┐
  │ Etude detaillee     │             │ Mini-projets reels  │           │ Derniere revision   │
  │ domaine par domaine │             │ Questions pratique  │           │ Focus points faibles│
  │ Notes structurees   │             │ (Whizlabs, Tutorials│           │ PASSAGE EXAMEN      │
  │ Premier quiz        │             │  Dojo)              │           │ Jour J : confiance! │
  └────────────────────┘             └────────────────────┘           └────────────────────┘

  Effort : 30%                        Effort : 40%                     Effort : 30%
  Mode : Passif → Actif               Mode : Actif (labs, questions)   Mode : Simulation

Plan d'Etude 6 Mois - Deux Certifications

Periode	Activite	Heures/semaine	Objectif
Mois 1-2	Preparation certification #1 (theorie + labs)	10-12h	Couvrir 100% du programme
Mois 3	Examens blancs + passage certification #1	12-15h	Score 80%+ aux blancs, passage
Mois 3-4	Mise en pratique reelle (projet pro ou perso)	8-10h	Consolider les acquis
Mois 4-5	Preparation certification #2 (theorie + labs)	10-12h	Couvrir 100% du programme
Mois 6	Examens blancs + passage certification #2	12-15h	Score 80%+ aux blancs, passage

La Repetition Espacee (Spaced Repetition)

La science derriere la methode

La courbe de l'oubli d'Ebbinghaus montre que nous oublions 70% de ce que nous apprenons en 24h sans revision. La repetition espacee combat cet oubli en revisitant l'information a des intervalles croissants : J+1, J+3, J+7, J+14, J+30. Chaque revision renforce la memoire a long terme. Utilisez Anki (gratuit) pour creer des flashcards numeriques avec un algorithme de repetition espacee integre.

Lab : Configurer Anki pour les Certifications

Etape 1 : Installation et configuration

Telechargez Anki (apps.ankiweb.net). Creez un deck par certification. Configurez les intervalles : New cards/day = 20, Maximum reviews/day = 100. Activez la synchronisation cloud pour reviser sur mobile.

Etape 2 : Creation de flashcards efficaces

Regles d'or : 1 concept = 1 carte. Formulez en question/reponse, pas en definition. Ajoutez des indices visuels (diagrammes, schemas). Exemples :

Recto : "Quels sont les 3 niveaux de acks dans Kafka et leurs garanties ?"
Verso : "acks=0 (fire&forget), acks=1 (leader only), acks=all (all ISR). Pour zero perte : acks=all + min.insync.replicas=2"

Etape 3 : Routine quotidienne

Revisez vos flashcards chaque matin pendant 15-20 minutes. Anki priorise automatiquement les cartes que vous maitrisez le moins. Apres 4 semaines, vous aurez memorise 90%+ du contenu avec un effort quotidien minimal.

Examens Blancs : La Cle du Succes

La methode des 3 passages

Passage 1 (semaine 6) : Faites un examen blanc complet en conditions reelles. Ne regardez pas les reponses pendant l'examen. Notez votre score et identifiez les domaines faibles. Passage 2 (semaine 9) : Refaites un examen different apres avoir revise les domaines faibles. Votre score devrait augmenter de 15-20%. Passage 3 (semaine 11) : Dernier examen blanc. Si vous depassez 80%, vous etes pret. Si non, reportez l'examen d'une semaine et revisez encore.

Ressources par Certification

Certification	Cours video recommande	Examens blancs	Cout total estime
CDMP	CDMP Exam Prep (Udemy)	DAMA International, CDMPExamPrep.com	500-700 EUR
SnowPro Core	SnowPro Core Prep (Udemy)	Snowflake Learning, Whizlabs	300-450 EUR
GCP PDE	Google Cloud Skills Boost, A Cloud Guru	Whizlabs, TutorialsDojo	400-600 EUR
Databricks DE	Databricks Academy (gratuit)	Databricks Practice Exam	200-300 EUR
AWS DAS	Stephane Maarek (Udemy), A Cloud Guru	TutorialsDojo, Whizlabs	400-550 EUR
Confluent Kafka	Confluent Training, Stephane Maarek	Confluent Practice Exam	250-400 EUR

Analyse ROI des Certifications

Calculez votre ROI avant de vous lancer

Formule : ROI = (Augmentation salaire annuelle - Cout preparation) / Cout preparation x 100

Exemple CDMP : Cout ~700 EUR, augmentation moyenne +12K EUR/an = ROI de 1614% la premiere annee.

Exemple GCP PDE : Cout ~550 EUR, augmentation moyenne +18K EUR/an = ROI de 3172% la premiere annee.

Meme le pire scenario (pas d'augmentation immediate) vous apporte des connaissances et un reseau qui ouvrent des portes a moyen terme.

Communautes et Ressources Gratuites

Ressource	Type	Certifications couvertes
Reddit r/dataengineering	Forum, retours d'experience	Toutes
Data Engineering Discord	Chat, entraide	Toutes
Meetup DAMA France	Presentations, networking	CDMP
Snowflake Community	Forum officiel, challenges	SnowPro
Google Cloud Skills Boost	Labs gratuits (credits limites)	GCP PDE
Databricks Community Edition	Plateforme gratuite pour pratiquer	Databricks DE
Confluent Developer	Tutoriels, Kafka Playground	Confluent

Bachoter sans comprendre

L'erreur la plus repandue est de memoriser les reponses des examens blancs sans comprendre le pourquoi. Quand vous ratez une question, ne lisez pas juste la bonne reponse : etudiez le concept sous-jacent en profondeur. Creez une flashcard. Faites un lab. Les examens reels reformulent les questions differemment, donc seule la comprehension profonde vous sauvera. Les "brain dumps" (fuites de questions) sont non seulement contraires a l'ethique mais aussi inefficaces car les questions changent regulierement.

Etude comparative : Methode passive vs methode active

Une etude menee par une communaute de 200 candidats au GCP PDE a compare deux approches de preparation :

Groupe A (passif) : Lecture du guide + videos, 80h sur 8 semaines. Taux de reussite : 42%
Groupe B (actif) : Labs + flashcards + examens blancs, 80h sur 8 semaines. Taux de reussite : 78%
Conclusion : A temps d'etude egal, la methode active double presque le taux de reussite

La difference ? Le groupe B passait 60% de son temps en pratique active (questions, labs, projets) et seulement 40% en lecture/video. Le groupe A faisait l'inverse.

Qu'est-ce que la repetition espacee et pourquoi est-elle efficace pour la preparation aux certifications ?

La repetition espacee est une technique d'apprentissage basee sur la courbe de l'oubli d'Ebbinghaus. Elle consiste a revoir l'information a des intervalles croissants (J+1, J+3, J+7, J+14, J+30). Chaque revision renforce la connexion neuronale et prolonge la duree de retention. Pour les certifications, cela signifie creer des flashcards Anki pour chaque concept cle et les reviser quotidiennement (15-20 min). Apres 4-6 semaines, vous retenez 90%+ du contenu avec un effort minimal. C'est 3x plus efficace que la relecture passive.

Comment calculer le ROI d'une certification et quelles sont les limites de ce calcul ?

Formule : ROI = (Gain annuel additionnel - Cout total) / Cout total x 100. Le cout inclut : examen, cours, livres, temps de preparation (valorise au taux horaire). Le gain inclut : augmentation salariale, opportunites freelance, primes. Limites : Le ROI ne capture pas les benefices intangibles (reseau, confiance, ouverture de portes). Il ne tient pas compte du cout d'opportunite (que feriez-vous pendant ces heures autrement ?). Enfin, la certification seule ne garantit pas l'augmentation : elle doit etre combinee avec la negociation salariale et le changement de poste.

Quiz : Certifications Strategiques

25 min Evaluation

Objectifs de ce quiz

Tester votre comprehension des certifications data et leurs domaines
Valider vos connaissances sur les architectures Snowflake, GCP, AWS, Databricks
Verifier votre maitrise des strategies de preparation
Identifier les domaines a approfondir avant de passer une certification

Ce quiz couvre l'ensemble du module Certifications Strategiques. Il simule le type de questions que vous rencontrerez dans les vrais examens. Prenez le temps de bien lire chaque question et toutes les options avant de repondre. Si vous obtenez moins de 6/8, revisez les lecons correspondantes avant de continuer.

Quiz - Certifications Strategiques (8 questions)

1. Dans le framework DAMA-DMBOK, quel domaine occupe la position centrale de la "roue des connaissances" et influence tous les autres domaines ?

A) Data Quality Management

B) Data Architecture & Design

C) Data Governance

D) Metadata Management

Reponse : C) Data Governance

La Data Governance est le domaine central du DMBOK. Elle definit les politiques, standards, roles et metriques qui orientent tous les autres domaines. Sans gouvernance, les initiatives de qualite, metadata ou securite manquent de direction et de coherence. C'est pourquoi elle represente 11% de l'examen CDMP et est testee transversalement dans les autres domaines.

2. Dans l'architecture Snowflake, quelle couche est responsable de l'optimisation des requetes, de la gestion des transactions et du controle d'acces ?

A) Storage Layer

B) Compute Layer (Virtual Warehouses)

C) Cloud Services Layer

D) Data Sharing Layer

Reponse : C) Cloud Services Layer

La Cloud Services Layer est le "cerveau" de Snowflake. Elle gere l'optimisation des requetes (query optimizer), la gestion des transactions (ACID), le controle d'acces (RBAC), la gestion des metadata, et l'infrastructure management. Elle est toujours active et ne necessite pas de virtual warehouse. La facturation de cette couche intervient uniquement si elle depasse 10% de la consommation compute quotidienne.

3. Vous concevez une architecture GCP pour traiter 50 000 evenements/seconde en streaming avec analyse en temps reel. Quelle combinaison de services est la plus appropriee ?

A) Cloud Storage → Dataproc (Spark) → BigQuery

B) Pub/Sub → Dataflow (Apache Beam) → BigQuery + Bigtable

C) Pub/Sub → Cloud Functions → Cloud SQL

D) Kafka → Dataproc (Flink) → Cloud Spanner

Reponse : B) Pub/Sub → Dataflow → BigQuery + Bigtable

Pub/Sub est le service d'ingestion streaming serverless de GCP, ideal pour les hauts debits. Dataflow (Apache Beam) gere le traitement streaming avec exactly-once, windowing et auto-scaling. BigQuery stocke les donnees pour l'analyse historique. Bigtable fournit les lookups temps reel (< 10ms). L'option A est batch, pas streaming. L'option C ne scale pas a 50K events/s. L'option D utilise des services non natifs GCP.

4. Dans Databricks, quelle est la difference principale entre Auto Loader et COPY INTO pour l'ingestion de fichiers ?

A) Auto Loader est batch, COPY INTO est streaming

B) Auto Loader utilise le Structured Streaming pour detecter incrementalement les nouveaux fichiers, COPY INTO est une commande batch SQL idempotente

C) COPY INTO est plus performant pour les gros volumes

D) Il n'y a aucune difference, les deux sont interchangeables

Reponse : B) Auto Loader utilise le Structured Streaming pour detecter incrementalement les nouveaux fichiers, COPY INTO est une commande batch SQL idempotente

Auto Loader (format "cloudFiles") s'appuie sur Structured Streaming et detecte automatiquement les nouveaux fichiers via des notifications cloud ou un listing incremental. Il est optimise pour des millions de fichiers et supporte l'inference de schema. COPY INTO est plus simple : c'est une commande SQL batch qui charge des fichiers avec tracking d'idempotence. Auto Loader est recommande pour les pipelines de production, COPY INTO pour les charges ponctuelles.

5. Pour un producer Kafka configure avec acks=all, que se passe-t-il si le nombre de replicas ISR tombe en dessous de min.insync.replicas ?

A) Le message est ecrit uniquement sur le leader

B) Le message est mis en file d'attente jusqu'a ce que les replicas reviennent

C) Le producer recoit une NotEnoughReplicasException et l'ecriture echoue

D) Kafka bascule automatiquement en acks=1

Reponse : C) Le producer recoit une NotEnoughReplicasException et l'ecriture echoue

Avec acks=all, Kafka exige que min.insync.replicas brokers confirment l'ecriture. Si le nombre d'ISR est insuffisant, l'ecriture est refusee avec une NotEnoughReplicasException. C'est un mecanisme de protection : plutot que de risquer une perte de donnees, Kafka prefere refuser l'ecriture. Le producer peut alors retry ou escalader l'erreur. Configuration recommandee : replication.factor=3, min.insync.replicas=2, acks=all (tolere 1 broker down).

6. Quel est l'anti-pattern le plus courant dans la preparation aux certifications data ?

A) Faire trop d'examens blancs

B) Accumuler de nombreuses certifications sans experience pratique ni approfondissement

C) Se concentrer sur une seule certification a la fois

D) Utiliser des flashcards pour la revision

Reponse : B) Accumuler de nombreuses certifications sans experience pratique ni approfondissement

Le "badge collecting" est l'anti-pattern majeur : passer d'un examen a l'autre en mode bachotage sans jamais pratiquer reellement les technologies certifiees. Resultat : un CV impressionnant mais une incapacite a repondre en profondeur en entretien technique. La regle d'or : chaque certification doit etre accompagnee d'au moins un projet pratique demontrable. L'option C est en fait une bonne pratique, et l'option D est une methode efficace.

7. Dans BigQuery, quelle combinaison de techniques reduit le plus efficacement les couts de requete ?

A) Utiliser SELECT * avec des vues materialisees

B) Partitionnement par date + clustering + require_partition_filter + eviter SELECT *

C) Augmenter le nombre de slots en mode flat-rate

D) Utiliser uniquement des tables temporaires

Reponse : B) Partitionnement par date + clustering + require_partition_filter + eviter SELECT *

En mode on-demand (facturation au scan), la cle est de reduire le volume de donnees scannees. Le partitionnement par date elimine les partitions non pertinentes. Le clustering organise les donnees dans chaque partition pour un pruning plus fin. require_partition_filter=true empeche les full scans accidentels. Eviter SELECT * limite le scan aux colonnes necessaires (BigQuery est columnar). Ces 4 techniques combinees peuvent reduire les couts de 80-95%.

8. Selon la methode de preparation recommandee, quelle repartition du temps d'etude est la plus efficace pour reussir une certification ?

A) 80% lecture/video, 20% pratique

B) 50% lecture/video, 50% pratique

C) 40% lecture/video, 60% pratique active (labs, questions, flashcards, examens blancs)

D) 100% examens blancs sans etude prealable

Reponse : C) 40% lecture/video, 60% pratique active

L'etude comparative citee dans la lecon montre que le groupe utilisant la methode active (60% pratique, 40% theorie) a un taux de reussite de 78%, contre 42% pour le groupe passif (80% lecture). La pratique active inclut : labs hands-on, flashcards avec repetition espacee (Anki), examens blancs en conditions reelles, mini-projets. La theorie est necessaire pour comprendre les concepts, mais c'est la pratique qui ancre les connaissances en memoire a long terme.

Lecon 9 : Construire son Portfolio

60 min Intermediaire

Objectifs d'apprentissage

Structurer un portfolio GitHub professionnel pour un Data Architect
Creer des README percutants avec diagrammes d'architecture
Enregistrer des demos videos de qualite professionnelle
Construire un site portfolio personnel attractif
Mettre en valeur ses competences techniques et leadership

Un portfolio de Data Architect n'est pas une simple collection de projets GitHub. C'est une vitrine qui demontre votre capacite a concevoir des systemes complexes, prendre des decisions architecturales justifiees et communiquer efficacement avec des equipes variees. Pensez-le comme une preuve vivante de votre expertise.

Pourquoi un Portfolio est Indispensable

Dans le marche actuel, un CV seul ne suffit plus. Les recruteurs et hiring managers veulent voir des preuves concretes de vos competences. Un portfolio bien construit vous distingue des centaines de candidats et demontre votre passion pour le metier.

Le Portfolio comme Preuve de Competence

Selon une etude de GitHub en 2024, les candidats avec un portfolio structure recoivent 3 fois plus d'entretiens que ceux qui n'en ont pas. Pour un Data Architect, le portfolio doit montrer non seulement du code, mais surtout des decisions d'architecture documentees.

Element du Portfolio	Impact Recrutement	Priorite
Projets GitHub documentes	Demontre competences techniques	Critique
Diagrammes d'architecture	Prouve la vision systemique	Critique
Blog technique	Montre leadership intellectuel	Haute
Demos videos	Communication et pedagogie	Moyenne
Contributions open source	Collaboration et communaute	Haute

Structure GitHub Optimale

Votre profil GitHub est souvent la premiere chose que regarde un recruteur technique. Voici la structure recommandee pour un Data Architect :

Structure GitHub

github.com/votre-nom/
├── votre-nom/                    # Repo special pour le profil README
│   └── README.md                 # Presentation personnelle
├── data-platform-e2e/            # Projet phare - plateforme complete
│   ├── README.md
│   ├── docs/
│   │   ├── architecture/
│   │   │   ├── c4-context.png
│   │   │   ├── c4-container.png
│   │   │   └── decisions/        # ADR (Architecture Decision Records)
│   │   ├── runbook/
│   │   └── api-specs/
│   ├── infrastructure/           # IaC (Terraform/Pulumi)
│   ├── ingestion/
│   ├── transformation/
│   ├── serving/
│   └── monitoring/
├── streaming-analytics/          # Projet real-time
├── data-mesh-poc/                # Proof of Concept Data Mesh
├── architecture-katas/           # Exercices d'architecture
└── blog-articles/                # Articles techniques

README Template pour Projets Data

Un README efficace suit une structure precise qui permet au lecteur de comprendre rapidement votre projet et vos choix architecturaux :

Markdown - README Template

# 🏗️ Nom du Projet

> Une phrase qui resume l'objectif et la valeur du projet.

## 📋 Vue d'ensemble

**Contexte** : Probleme metier resolu
**Solution** : Approche architecturale choisie
**Stack** : Technologies principales utilisees
**Statut** : 🟢 Production / 🟡 En cours / 🔴 Prototype

## 🏛️ Architecture

![Architecture Diagram](docs/architecture/overview.png)

### Decisions Architecturales Cles
| Decision | Choix | Justification |
|----------|-------|---------------|
| Message Broker | Kafka | Throughput > 100K msg/s requis |
| Processing | Flink | Exactly-once semantics |
| Storage | Delta Lake | ACID + time travel |

## 🚀 Quick Start

```bash
# Cloner et demarrer
git clone https://github.com/user/project.git
docker-compose up -d
```

## 📊 Resultats & Metriques
- Latence p99 : < 200ms
- Throughput : 150K events/s
- Disponibilite : 99.95%

## 📝 Documentation
- [Architecture Decision Records](docs/adr/)
- [Runbook](docs/runbook/)
- [API Documentation](docs/api/)

## 🎥 Demo
[![Demo Video](docs/demo-thumbnail.png)](https://youtu.be/xxx)

Diagrammes d'Architecture dans le Portfolio

Utilisez le C4 Model

Le C4 Model (Context, Containers, Components, Code) est le standard de facto pour documenter l'architecture logicielle. Chaque projet de votre portfolio devrait inclure au minimum les niveaux Context et Container. Utilisez des outils comme Structurizr, Mermaid, ou PlantUML pour generer vos diagrammes.

Exemple - Niveaux de diagrammes pour un projet portfolio

Portfolio Architecture Documentation
=====================================

Level 1: Context           Level 2: Container          Level 3: Component
┌─────────────────┐       ┌─────────────────┐         ┌─────────────────┐
│ Qui utilise le  │       │ Quels services  │         │ Comment chaque  │
│ systeme ? Quels │  ──►  │ composent le    │   ──►   │ service est     │
│ systemes        │       │ systeme ?       │         │ structure ?     │
│ externes ?      │       │                 │         │                 │
└─────────────────┘       └─────────────────┘         └─────────────────┘
   Vision macro             Vision deploiement          Vision interne
   Pour tous                Pour devs/architects        Pour devs

Enregistrer des Demos Professionnelles

Une demo video de 3 a 5 minutes peut avoir plus d'impact qu'un README detaille. Voici les bonnes pratiques :

Outil recommande : OBS Studio (gratuit) ou Loom (rapide)
Format : Introduction (30s) → Probleme (30s) → Architecture (1 min) → Demo live (2 min) → Conclusion (30s)
Resolution : 1080p minimum, police agrandie dans le terminal
Audio : Micro externe recommande, evitez le bruit de fond
Hebergement : YouTube (non-liste) ou Loom pour partage facile

Sarah M. - Staff Data Architect chez Datadog

Sarah a decroche son poste en presentant un portfolio GitHub avec 5 projets documentes. Chaque projet incluait des diagrammes C4, des ADR detailles et une demo video de 4 minutes. Son README profil contenait un resume de ses specialisations (streaming, observabilite) et des liens directs vers ses projets phares.

12 etoiles GitHub sur son projet principal en 3 mois
3 offres recues apres avoir partage son portfolio sur LinkedIn
Le hiring manager a cite les ADR comme facteur decisif

Construire un Site Portfolio

Un site web personnel ajoute une couche professionnelle. Les options recommandees :

Option Simple : GitHub Pages

Gratuit et integre a GitHub
Themes Jekyll ou Hugo
Domaine personnalise possible
Ideal pour debuter
Maintenance minimale

Option Avancee : Site Custom

Next.js / Astro deploye sur Vercel
Design sur mesure
Section blog integree
Analytics et SEO
Plus de controle mais plus d'effort

Portfolio sans profondeur

Un des pieges les plus courants : lister 20 projets superficiels avec des README generiques. Un recruteur prefere voir 3-4 projets bien documentes avec des choix architecturaux justifies plutot qu'une collection de tutoriels suivis sans reflexion personnelle. Chaque projet doit repondre a la question : "Pourquoi avez-vous fait ce choix plutot qu'un autre ?"

Quels sont les 3 elements indispensables d'un projet portfolio pour un Data Architect ?

1. Diagrammes d'architecture (C4 Model minimum Context + Container) - prouvent la vision systemique.
2. Architecture Decision Records (ADR) - documentent le raisonnement derriere chaque choix technique.
3. Metriques et resultats - quantifient les performances et la valeur du systeme construit.

Quelle est la structure optimale d'une demo video pour un projet d'architecture ?

Format de 3-5 minutes : Introduction (30s, qui vous etes et le contexte) → Probleme (30s, le defi technique) → Architecture (1 min, les choix et tradeoffs) → Demo live (2 min, le systeme en action) → Conclusion (30s, lecons apprises et prochaines etapes).

Lecon 10 : Projet - Data Platform End-to-End

120 min Avance

Objectifs d'apprentissage

Concevoir une plateforme de donnees complete pour un e-commerce
Definir les couches ingestion, transformation, serving et monitoring
Documenter les decisions architecturales avec des ADR
Implementer l'infrastructure as code avec Terraform
Mettre en place l'observabilite de bout en bout

Ce projet est la piece maitresse de votre portfolio. Il doit demontrer que vous pouvez concevoir un systeme de donnees complet, pas juste un pipeline isole. Pensez a chaque composant comme une brique qui doit fonctionner avec les autres. Un bon architect ne construit pas des composants, il construit des systemes.

Contexte du Projet

Vous etes le Data Architect d'une plateforme e-commerce en forte croissance. L'entreprise gere 500 000 commandes par jour, 10 millions de produits et a des equipes reparties dans 4 pays. Votre mission : concevoir la plateforme de donnees qui alimentera les analytics, le machine learning et les operations.

Exigences Non-Fonctionnelles

Volume : 50 Go de donnees brutes par jour, croissance de 30% annuelle
Latence : Dashboards operationnels < 5 min de fraicheur
SLA : 99.9% de disponibilite sur les pipelines critiques
Conformite : RGPD, donnees clients dans l'UE uniquement
Cout : Budget cloud < 15K EUR/mois

Architecture Globale

Architecture Data Platform E2E - E-commerce

┌──────────────────────────────────────────────────────────────────────────┐
│                           SOURCES DE DONNEES                            │
├────────────┬────────────┬────────────┬────────────┬─────────────────────┤
│ PostgreSQL │  MongoDB   │  API REST  │  Clickstr. │  Fichiers CSV/JSON  │
│ (commandes)│ (catalogue)│ (partenrs) │  (events)  │  (fournisseurs)     │
└─────┬──────┴─────┬──────┴─────┬──────┴─────┬──────┴──────────┬──────────┘
      │            │            │            │                 │
┌─────▼────────────▼────────────▼────────────▼─────────────────▼──────────┐
│                         COUCHE INGESTION                                │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────────────────┐    │
│  │ Debezium │  │  Airbyte │  │  Kafka   │  │   Cloud Functions    │    │
│  │   CDC    │  │  Batch   │  │ Connect  │  │   (fichiers/APIs)    │    │
│  └────┬─────┘  └────┬─────┘  └────┬─────┘  └──────────┬───────────┘    │
└───────┼──────────────┼─────────────┼───────────────────┼────────────────┘
        │              │             │                   │
┌───────▼──────────────▼─────────────▼───────────────────▼────────────────┐
│                      COUCHE STOCKAGE RAW (Bronze)                       │
│               ┌──────────────────────────────┐                          │
│               │     Delta Lake / S3 + Iceberg │                         │
│               │     Format: Parquet + Delta   │                         │
│               │     Partitioning: date/source │                         │
│               └──────────────┬───────────────┘                          │
└──────────────────────────────┼──────────────────────────────────────────┘
                               │
┌──────────────────────────────▼──────────────────────────────────────────┐
│                     COUCHE TRANSFORMATION                               │
│  ┌─────────────┐  ┌──────────────┐  ┌───────────────┐                  │
│  │   dbt Core  │  │   Spark Jobs │  │  Great Expect. │                 │
│  │  (SQL ELT)  │  │   (Python)   │  │  (Quality)     │                 │
│  └──────┬──────┘  └──────┬───────┘  └───────┬────────┘                 │
│         │     Silver     │                   │                          │
│         └───────┬────────┘                   │                          │
│                 ▼                             │                          │
│  ┌──────────────────────┐    ┌───────────────▼──────┐                  │
│  │  Gold Layer (marts)  │◄───│  Data Quality Gates   │                 │
│  └──────────┬───────────┘    └──────────────────────┘                  │
└─────────────┼───────────────────────────────────────────────────────────┘
              │
┌─────────────▼───────────────────────────────────────────────────────────┐
│                        COUCHE SERVING                                   │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────────────┐       │
│  │ Tableau  │  │  Metabase│  │ Feature  │  │  API GraphQL     │       │
│  │(BI exec) │  │(self-srv)│  │  Store   │  │  (applications)  │       │
│  └──────────┘  └──────────┘  └──────────┘  └──────────────────┘       │
└─────────────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────────────┐
│                     COUCHE TRANSVERSALE                                  │
│  Orchestration: Dagster  │  Catalog: DataHub  │  Monitoring: Grafana   │
│  IaC: Terraform          │  CI/CD: GitHub Act │  Alerting: PagerDuty   │
└─────────────────────────────────────────────────────────────────────────┘

Phase 1 : Ingestion

La couche d'ingestion doit gerer des sources heterogenes avec des contraintes differentes :

Terraform - Infrastructure Ingestion

# modules/ingestion/main.tf

module "kafka_cluster" {
  source = "./modules/kafka"

  cluster_name    = "ecommerce-prod"
  broker_count    = 3
  instance_type   = "kafka.m5.large"
  storage_per_broker = 500  # Go

  topics = {
    "raw.orders"     = { partitions = 12, retention_hours = 168 }
    "raw.clickstream" = { partitions = 24, retention_hours = 72 }
    "raw.inventory"  = { partitions = 6,  retention_hours = 168 }
    "raw.user_events" = { partitions = 12, retention_hours = 72 }
  }

  schema_registry = {
    enabled       = true
    compatibility = "BACKWARD"
  }
}

module "debezium_connectors" {
  source = "./modules/debezium"

  kafka_bootstrap = module.kafka_cluster.bootstrap_servers

  connectors = {
    "postgres-orders" = {
      database_hostname = var.orders_db_host
      database_name     = "orders"
      table_include_list = "public.orders,public.order_items,public.payments"
      snapshot_mode     = "initial"
      transforms        = "route"
      transforms_route_type = "org.apache.kafka.connect.transforms.RegexRouter"
    }
  }
}

module "airbyte" {
  source = "./modules/airbyte"

  connections = {
    "mongodb-catalog" = {
      source      = "mongodb"
      destination = "s3-raw"
      schedule    = "every 6 hours"
      streams     = ["products", "categories", "reviews"]
    }
    "api-partners" = {
      source      = "rest-api"
      destination = "s3-raw"
      schedule    = "daily"
    }
  }
}

Phase 2 : Transformation avec dbt

SQL - dbt Model Silver Layer

-- models/silver/orders/stg_orders.sql
-- Nettoyage et standardisation des commandes

{{
  config(
    materialized='incremental',
    unique_key='order_id',
    partition_by={'field': 'order_date', 'data_type': 'date'},
    cluster_by=['country_code', 'status']
  )
}}

WITH source AS (
    SELECT * FROM {{ source('raw', 'orders') }}
    {% if is_incremental() %}
    WHERE _ingested_at > (SELECT MAX(_ingested_at) FROM {{ this }})
    {% endif %}
),

cleaned AS (
    SELECT
        order_id,
        customer_id,
        CAST(order_date AS DATE) AS order_date,
        UPPER(TRIM(country_code)) AS country_code,
        CASE
            WHEN status IN ('PAID', 'COMPLETED') THEN 'COMPLETED'
            WHEN status IN ('PENDING', 'PROCESSING') THEN 'IN_PROGRESS'
            WHEN status = 'CANCELLED' THEN 'CANCELLED'
            ELSE 'UNKNOWN'
        END AS order_status,
        ROUND(total_amount, 2) AS total_amount_eur,
        currency,
        _ingested_at
    FROM source
    WHERE order_id IS NOT NULL
      AND total_amount > 0
)

SELECT * FROM cleaned

Phase 3 : Data Quality Gates

YAML - Great Expectations Suite

# great_expectations/expectations/orders_suite.yml
expectation_suite_name: orders_quality_suite
expectations:
  - expectation_type: expect_column_values_to_not_be_null
    kwargs:
      column: order_id
    meta:
      severity: critical

  - expectation_type: expect_column_values_to_be_between
    kwargs:
      column: total_amount_eur
      min_value: 0.01
      max_value: 100000
    meta:
      severity: warning

  - expectation_type: expect_column_values_to_be_in_set
    kwargs:
      column: country_code
      value_set: ["FR", "DE", "ES", "IT", "NL", "BE"]
    meta:
      severity: critical

  - expectation_type: expect_table_row_count_to_be_between
    kwargs:
      min_value: 400000
      max_value: 700000
    meta:
      severity: warning
      notes: "Volume journalier attendu ~500K commandes"

Phase 4 : Monitoring et Observabilite

Ne negligez pas l'observabilite

Un pipeline sans monitoring est une bombe a retardement. Votre projet portfolio doit inclure : metriques de latence, alertes sur la qualite des donnees, dashboards operationnels, et un runbook pour les incidents courants. C'est ce qui distingue un projet academique d'un projet production-ready.

Simulation : Presentation a un Comite d'Architecture

Imaginez que vous presentez cette architecture a un comite comprenant le CTO, le VP Engineering et le Head of Data. Preparez des reponses aux questions typiques :

CTO : "Pourquoi Kafka plutot qu'un simple systeme de queues ?"
VP Eng : "Comment gerez-vous le failover entre regions ?"
Head of Data : "Quel est le cout mensuel et comment evolue-t-il ?"
CISO : "Comment assurez-vous la conformite RGPD sur les donnees clients ?"

Marc D. - Plateforme E-commerce chez ManoMano

Marc a concu une plateforme similaire traitant 2 millions d'evenements par jour. Les cles de son succes :

Architecture multi-couches (Bronze/Silver/Gold) avec Delta Lake
Data contracts entre equipes pour garantir la compatibilite
Budget cloud reduit de 40% grace au partitionnement intelligent et aux instances spot
Temps de recovery (RTO) passe de 4h a 20 minutes grace aux runbooks automatises

Projets copy-paste

Copier un tutoriel "Modern Data Stack" en changeant les noms de tables est immediatement detectable par un interviewer senior. Les indices : pas d'ADR, pas de justification des choix technologiques, metriques generiques, et surtout l'absence de trade-offs documentes. Un vrai projet montre les compromis : pourquoi vous avez choisi X malgre ses inconvenients Y et Z.

Quelles sont les 4 couches d'une Data Platform E2E et leur role respectif ?

1. Ingestion : Capture des donnees depuis les sources (CDC, batch, streaming) vers le stockage raw.
2. Transformation : Nettoyage, enrichissement, modelisation (Bronze → Silver → Gold) avec qualite integree.
3. Serving : Mise a disposition des donnees aux consommateurs (BI, ML, APIs, applications).
4. Transversale : Orchestration, catalogage, monitoring, IaC, CI/CD - le ciment qui fait fonctionner l'ensemble.

Lecon 11 : Projet - Real-time Pipeline

120 min Avance

Objectifs d'apprentissage

Concevoir une plateforme d'analytics en temps reel
Maitriser l'architecture Kafka + Flink pour le stream processing
Implementer des dashboards temps reel avec des fenetres glissantes
Gerer la semantique exactly-once dans un pipeline distribue
Dimensionner et optimiser un systeme streaming haute performance

Le real-time est souvent survalorise : tous les cas d'usage ne le necessitent pas. Un bon architect sait distinguer le vrai temps reel (millisecondes) du near-real-time (minutes) et du micro-batch (15-60 min). Ce projet vous apprend a construire du streaming robuste, mais aussi a savoir quand ne PAS l'utiliser.

Contexte : Plateforme de Streaming Analytics

Vous construisez une plateforme d'analytics en temps reel pour un site media qui genere 50 000 evenements par seconde aux heures de pointe. L'objectif : detecter les tendances virales, personaliser le contenu en temps reel, et fournir des metriques d'audience instantanees aux editeurs.

Architecture Real-time Analytics Pipeline

                    ┌──────────────────────────────────────────────┐
                    │              PRODUCTEURS                      │
                    │  ┌─────────┐  ┌──────────┐  ┌───────────┐  │
                    │  │ Web App │  │Mobile App│  │  IoT/CDN  │  │
                    │  │ (clicks)│  │ (events) │  │ (metrics) │  │
                    │  └────┬────┘  └────┬─────┘  └─────┬─────┘  │
                    └───────┼────────────┼──────────────┼─────────┘
                            │            │              │
                    ┌───────▼────────────▼──────────────▼─────────┐
                    │            APACHE KAFKA                      │
                    │  ┌─────────────────────────────────────┐    │
                    │  │ Topics:                              │    │
                    │  │   raw.pageviews  (24 partitions)    │    │
                    │  │   raw.clicks     (12 partitions)    │    │
                    │  │   raw.sessions   (12 partitions)    │    │
                    │  │   raw.cdn_logs   (6 partitions)     │    │
                    │  └──────────────────┬──────────────────┘    │
                    │     Schema Registry │ (Avro/Protobuf)       │
                    └─────────────────────┼───────────────────────┘
                                          │
              ┌───────────────────────────┼───────────────────────┐
              │                           │                       │
    ┌─────────▼──────────┐    ┌──────────▼──────────┐   ┌───────▼────────┐
    │   FLINK JOB #1     │    │   FLINK JOB #2      │   │ FLINK JOB #3   │
    │   Trend Detection  │    │   Session Windows   │   │ Anomaly Detect │
    │                    │    │                      │   │                │
    │ Tumbling Window    │    │ Session Gap: 30min  │   │ Pattern Match  │
    │ 1 min aggregation  │    │ User behavior       │   │ Click fraud    │
    └────────┬───────────┘    └──────────┬──────────┘   └───────┬────────┘
             │                           │                      │
    ┌────────▼───────┐    ┌──────────────▼────────┐   ┌────────▼─────────┐
    │   Apache Druid │    │    Apache Pinot       │   │   Elasticsearch  │
    │  (OLAP temps   │    │   (User analytics)    │   │   (Search &      │
    │   reel)        │    │                       │   │    alertes)      │
    └────────┬───────┘    └──────────────┬────────┘   └────────┬─────────┘
             │                           │                      │
    ┌────────▼───────────────────────────▼──────────────────────▼─────────┐
    │                     COUCHE PRESENTATION                             │
    │  ┌──────────────┐  ┌───────────────┐  ┌────────────────────────┐   │
    │  │ Grafana      │  │  Superset     │  │  Custom React          │   │
    │  │ (ops metrics)│  │  (analytics)  │  │  Dashboard (WebSocket) │   │
    │  └──────────────┘  └───────────────┘  └────────────────────────┘   │
    └─────────────────────────────────────────────────────────────────────┘

Implementation Flink : Detection de Tendances

Java - Flink Trend Detection Job

public class TrendDetectionJob {

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env =
            StreamExecutionEnvironment.getExecutionEnvironment();

        // Exactly-once semantics
        env.enableCheckpointing(60000, CheckpointingMode.EXACTLY_ONCE);
        env.getCheckpointConfig().setMinPauseBetweenCheckpoints(30000);
        env.setParallelism(8);

        // Source Kafka
        KafkaSource<PageViewEvent> source = KafkaSource
            .<PageViewEvent>builder()
            .setBootstrapServers("kafka:9092")
            .setTopics("raw.pageviews")
            .setGroupId("trend-detection-v1")
            .setStartingOffsets(OffsetsInitializer.committedOffsets(
                OffsetResetStrategy.LATEST))
            .setDeserializer(new PageViewEventDeserializer())
            .build();

        DataStream<PageViewEvent> events = env
            .fromSource(source, WatermarkStrategy
                .<PageViewEvent>forBoundedOutOfOrderness(
                    Duration.ofSeconds(10))
                .withTimestampAssigner((event, ts) ->
                    event.getTimestamp()),
                "kafka-source");

        // Aggregation par article - fenetre tumbling de 1 minute
        DataStream<TrendMetric> trends = events
            .keyBy(PageViewEvent::getArticleId)
            .window(TumblingEventTimeWindows.of(Time.minutes(1)))
            .aggregate(new ViewCountAggregate(),
                       new TrendWindowFunction());

        // Detection des tendances virales
        DataStream<ViralAlert> viralAlerts = trends
            .keyBy(TrendMetric::getArticleId)
            .process(new ViralDetectionFunction(
                /* seuil croissance */ 3.0,  // 300% d'augmentation
                /* fenetre comparaison */ 5  // vs 5 dernieres minutes
            ));

        // Sink vers Druid + Kafka alertes
        trends.sinkTo(druidSink());
        viralAlerts.sinkTo(kafkaSink("alerts.viral-content"));

        env.execute("Trend Detection Pipeline v2.1");
    }
}

Fenetres de Temps en Streaming

La gestion des fenetres temporelles est au coeur du stream processing. Choisir la bonne fenetre impacte directement la qualite des resultats :

Type de Fenetre	Description	Cas d'Usage	Latence
Tumbling	Fenetres fixes non chevauchantes	Comptage par minute	= taille fenetre
Sliding	Fenetres qui se chevauchent	Moyenne glissante	= intervalle de slide
Session	Basees sur l'inactivite	Sessions utilisateur	= session gap
Global	Fenetre unique avec trigger custom	Aggregations complexes	Variable

Exactly-Once vs At-Least-Once

La semantique exactly-once garantit que chaque evenement est traite une et une seule fois, meme en cas de panne. Flink l'implemente via le mecanisme de checkpointing (Chandy-Lamport). Cependant, exactly-once a un cout en performance (latence +10-20%). Si votre cas d'usage tolere des doublons (compteurs approximatifs), at-least-once offre de meilleures performances. Documentez ce choix dans vos ADR.

Dashboard Temps Reel avec WebSocket

Python - WebSocket Server pour Dashboard

# server/realtime_dashboard.py
import asyncio
import json
from fastapi import FastAPI, WebSocket
from aiokafka import AIOKafkaConsumer

app = FastAPI()
connected_clients: set = set()

async def kafka_consumer():
    """Consomme les metriques aggregees et les diffuse aux clients."""
    consumer = AIOKafkaConsumer(
        'metrics.realtime-dashboard',
        bootstrap_servers='kafka:9092',
        group_id='dashboard-ws-server',
        value_deserializer=lambda m: json.loads(m.decode('utf-8'))
    )
    await consumer.start()
    try:
        async for msg in consumer:
            metric = msg.value
            # Diffuser a tous les clients connectes
            disconnected = set()
            for client in connected_clients:
                try:
                    await client.send_json({
                        "type": "metric_update",
                        "data": {
                            "timestamp": metric["window_end"],
                            "top_articles": metric["top_10_articles"],
                            "total_views_per_min": metric["view_count"],
                            "active_users": metric["unique_users"],
                            "viral_alerts": metric.get("viral", [])
                        }
                    })
                except Exception:
                    disconnected.add(client)
            connected_clients -= disconnected
    finally:
        await consumer.stop()

@app.websocket("/ws/dashboard")
async def dashboard_ws(websocket: WebSocket):
    await websocket.accept()
    connected_clients.add(websocket)
    try:
        while True:
            await websocket.receive_text()  # Keep-alive
    except Exception:
        connected_clients.discard(websocket)

@app.on_event("startup")
async def startup():
    asyncio.create_task(kafka_consumer())

Simulation : Pic de Trafic Black Friday

Votre systeme gere normalement 50K events/s. Le Black Friday, le trafic monte a 200K events/s en 10 minutes. Comment reagissez-vous ?

Auto-scaling Kafka : Partitions pre-allouees a 48 (vs 24 normal), brokers en scale-out
Flink : Parallelisme passe de 8 a 32, activation du reactive mode
Back-pressure : Mecanisme de back-pressure Flink pour eviter les OOM
Graceful degradation : En cas de surcharge, basculer le job anomaly detection en at-least-once
Buffering : Kafka retient les messages le temps que le processing rattrape

Echec : Pipeline streaming chez un retailer europeen

Un retailer a deploye un pipeline Kafka + Spark Structured Streaming pour le suivi des stocks en temps reel. Apres 3 mois en production :

Latence moyenne passee de 2s a 45s a cause du micro-batching Spark (intervalle 10s)
Perte de donnees lors d'un rebalancing Kafka mal configure (session.timeout trop court)
Cout x3 par rapport au budget initial : Spark necessite des clusters beaucoup plus gros que Flink pour du streaming
Lecon : Spark Structured Streaming est du micro-batch, pas du vrai streaming. Pour une latence sub-seconde, Flink est le choix adapte.

Quels sont les 3 mecanismes essentiels pour garantir la fiabilite d'un pipeline streaming ?

1. Checkpointing : Sauvegarde periodique de l'etat du pipeline pour recovery en cas de panne (Flink utilise l'algorithme Chandy-Lamport).
2. Watermarks : Mecanisme pour gerer les evenements en retard (late events) en definissant la tolerance au desordre temporel.
3. Back-pressure : Propagation automatique de la pression quand un operateur est plus lent, evitant les depassements memoire et la perte de donnees.

Lecon 12 : Projet - Data Mesh

120 min Avance

Objectifs d'apprentissage

Implementer les 4 principes du Data Mesh dans une organisation multi-domaines
Definir des Data Products avec contrats et SLA
Concevoir une Self-Serve Data Platform
Mettre en place la gouvernance federee
Gerer la transition d'une architecture centralisee vers un Data Mesh

Le Data Mesh est probablement le paradigme le plus mal compris dans le monde des donnees. Ce n'est PAS un outil, ni une technologie. C'est un modele organisationnel et architectural. Avant de l'implementer, assurez-vous que votre organisation a la maturite necessaire : equipes autonomes, culture produit, et sponsoring executif. Sinon, vous creez juste du chaos distribue.

Contexte : Organisation Multi-Domaines

Vous etes le Data Architect d'un groupe de retail avec 4 domaines metier : Commerce (ventes en ligne et en magasin), Supply Chain (logistique et stocks), Marketing (campagnes et CRM), et Finance (comptabilite et reporting reglementaire). Chaque domaine a sa propre equipe technique et ses propres besoins en donnees.

Les 4 Principes du Data Mesh

Les 4 Principes du Data Mesh - Vue d'Ensemble

┌─────────────────────────────────────────────────────────────────────┐
│                    DATA MESH - 4 PRINCIPES                          │
├─────────────────────┬───────────────────────────────────────────────┤
│                     │                                               │
│  1. Domain          │  2. Data as a Product                         │
│     Ownership       │                                               │
│  ┌───────────┐      │  ┌───────────────────────────────────────┐   │
│  │ Commerce  │──────│──│ Product: "Orders Dataset"              │   │
│  │ Domain    │      │  │  - Owner: Commerce Team                │   │
│  └───────────┘      │  │  - SLA: 99.9%, freshness < 5min       │   │
│  ┌───────────┐      │  │  - Schema: documented, versioned       │   │
│  │ Supply    │──────│──│  - Quality: automated checks           │   │
│  │ Chain     │      │  │  - Discovery: searchable in catalog    │   │
│  └───────────┘      │  └───────────────────────────────────────┘   │
│  ┌───────────┐      │                                               │
│  │ Marketing │      │  3. Self-Serve         4. Federated           │
│  └───────────┘      │     Platform              Governance          │
│  ┌───────────┐      │  ┌──────────────┐     ┌──────────────────┐   │
│  │ Finance   │      │  │ Infra as     │     │ Global policies  │   │
│  └───────────┘      │  │ Code, CI/CD  │     │ Local autonomy   │   │
│                     │  │ Data tooling │     │ Interoperability │   │
│                     │  └──────────────┘     └──────────────────┘   │
└─────────────────────┴───────────────────────────────────────────────┘

Definition des Data Products

YAML - Data Product Contract

# data-products/commerce/orders-dataset/contract.yaml
apiVersion: datamesh/v1
kind: DataProduct
metadata:
  name: orders-dataset
  domain: commerce
  owner: commerce-data-team
  version: "2.3.0"

spec:
  description: |
    Dataset des commandes consolide, incluant les items,
    paiements et statuts de livraison. Source de verite pour
    toutes les analyses liees aux ventes.

  sla:
    availability: 99.9%
    freshness: "5 minutes"
    latency_p99: "200ms"
    support_hours: "24/7"
    incident_response: "30 minutes"

  schema:
    format: delta-lake
    location: "s3://data-mesh/commerce/orders/gold/"
    columns:
      - name: order_id
        type: STRING
        description: "Identifiant unique de la commande"
        pii: false
        nullable: false
      - name: customer_id
        type: STRING
        description: "Identifiant client (pseudo-anonymise)"
        pii: true
        nullable: false
      - name: order_date
        type: TIMESTAMP
        description: "Date et heure de la commande"
        nullable: false
      - name: total_amount_eur
        type: DECIMAL(10,2)
        description: "Montant total en euros TTC"
        nullable: false
      - name: country_code
        type: STRING
        description: "Code pays ISO 3166-1 alpha-2"
        nullable: false

  quality:
    checks:
      - type: completeness
        column: order_id
        threshold: 100%
      - type: freshness
        max_delay: "10 minutes"
      - type: volume
        min_records_per_day: 400000
        max_records_per_day: 700000
      - type: uniqueness
        column: order_id
        threshold: 100%

  access:
    classification: internal
    pii_columns: [customer_id]
    approved_consumers:
      - domain: marketing
        purpose: "Attribution et analyse de campagnes"
      - domain: finance
        purpose: "Reporting revenue et comptabilite"
      - domain: supply-chain
        purpose: "Prevision de demande"

  output_ports:
    - type: delta-table
      location: "s3://data-mesh/commerce/orders/gold/"
      format: parquet
    - type: rest-api
      endpoint: "https://api.data.company.com/commerce/orders"
      auth: oauth2
    - type: kafka-topic
      topic: "mesh.commerce.orders.events"
      format: avro

Self-Serve Data Platform

La Self-Serve Platform est l'infrastructure partagee qui permet a chaque domaine de creer, deployer et operer ses data products de maniere autonome :

Terraform - Self-Serve Platform Module

# platform/modules/domain-workspace/main.tf
# Provisionne un espace de travail complet pour un domaine

variable "domain_name" { type = string }
variable "team_members" { type = list(string) }
variable "budget_limit_monthly" { type = number }

# Storage isole par domaine
resource "aws_s3_bucket" "domain_data" {
  bucket = "data-mesh-${var.domain_name}-${var.environment}"

  tags = {
    Domain      = var.domain_name
    ManagedBy   = "data-platform-team"
    CostCenter  = var.domain_name
  }
}

# Schema Registry dedie
resource "confluent_schema_registry_cluster" "domain_sr" {
  environment { id = var.confluent_env_id }
  package     = "ESSENTIALS"
  region {
    id   = "eu-west-1"
    cloud = "AWS"
  }
}

# Compute pour transformations
resource "databricks_workspace" "domain_workspace" {
  name                        = "ws-${var.domain_name}"
  managed_resource_group_name = "rg-${var.domain_name}-databricks"
  sku                         = "premium"

  custom_parameters {
    virtual_network_id = var.vnet_id
    budget_policy_id   = databricks_budget.domain.id
  }
}

# Budget alerting
resource "aws_budgets_budget" "domain_budget" {
  name         = "mesh-${var.domain_name}-monthly"
  budget_type  = "COST"
  limit_amount = var.budget_limit_monthly
  limit_unit   = "USD"
  time_unit    = "MONTHLY"

  notification {
    comparison_operator = "GREATER_THAN"
    threshold           = 80
    threshold_type      = "PERCENTAGE"
    notification_type   = "ACTUAL"
    subscriber_email_addresses = var.team_members
  }
}

# Data catalog registration automatique
resource "datahub_dataset" "auto_register" {
  for_each = toset(var.published_datasets)

  platform = "delta-lake"
  name     = "${var.domain_name}.${each.value}"
  domain   = var.domain_name
  owners   = var.team_members
}

Gouvernance Federee

Gouvernance Federee = Regles Globales + Autonomie Locale

La gouvernance federee definit des standards minimaux que tous les domaines doivent respecter (format de nommage, classification PII, qualite minimale), tout en laissant chaque domaine libre de ses choix d'implementation. Pensez au modele federal : la constitution definit les principes, chaque etat implemente ses lois locales.

Politique	Scope	Application	Responsable
Nommage des datasets	Global	Automatisee (CI/CD)	Platform Team
Classification PII	Global	Scan automatique + revue	DPO + Domain
Schema versioning	Global	Schema Registry	Platform Team
Quality thresholds	Par domaine	Great Expectations	Domain Team
Retention policies	Par dataset	Lifecycle rules S3	Domain Team
Access control	Global framework	Unity Catalog / Ranger	Platform + Domain

Ignorer les soft skills dans le Data Mesh

Le piege le plus frequent : se concentrer uniquement sur la technologie et ignorer le changement organisationnel. Le Data Mesh necessite que les equipes domaine acceptent la responsabilite de leurs donnees. Sans formation, sans incentives alignes, et sans support du management, les equipes resistent et le mesh se transforme en silos encore plus fragmentes qu'avant. Le Data Architect doit etre autant un agent de changement qu'un technologue.

Zalando - Data Mesh a Grande Echelle

Zalando a ete l'un des premiers adopteurs du Data Mesh en Europe :

Transition progressive sur 2 ans, domaine par domaine
200+ data products publies par 40+ equipes domaine
Self-serve platform basee sur AWS + infrastructure interne
Temps de mise a disposition d'un nouveau dataset reduit de 3 semaines a 2 jours
Cle du succes : Un "Data Product Canvas" standardise pour chaque nouveau data product, et des "Data Product Owners" dedies dans chaque equipe

Simulation : Resistance au Changement

Le responsable de l'equipe Finance refuse d'adopter le Data Mesh : "On a toujours fonctionne avec l'equipe data centrale, pourquoi changer ?" Comment gerez-vous cette situation ?

Ecoute : Comprendre les vrais freins (charge de travail, competences, peur du changement)
Quick Win : Proposer un premier data product simple avec accompagnement total
ROI concret : Montrer que le delai de livraison d'un rapport passe de 3 semaines a 3 jours
Co-creation : Impliquer l'equipe Finance dans la definition de ses propres standards de qualite
Escalade constructive : Si le blocage persiste, impliquer le sponsor executif avec des chiffres

Quels sont les 4 principes fondamentaux du Data Mesh selon Zhamak Dehghani ?

1. Domain Ownership : Les donnees sont possedees et gerees par les equipes domaine qui les produisent, pas par une equipe data centrale.
2. Data as a Product : Les datasets sont traites comme des produits avec SLA, documentation, qualite et decouverte.
3. Self-Serve Platform : Une plateforme partagee fournit les outils pour que chaque domaine soit autonome.
4. Federated Governance : Des standards globaux avec autonomie locale pour assurer l'interoperabilite sans creer de goulot d'etranglement central.

Lecon 13 : Contribution Open Source

60 min Intermediaire

Objectifs d'apprentissage

Comprendre l'ecosysteme open source data (Apache Foundation, CNCF, LF)
Trouver et selectionner des "good first issues" sur les projets majeurs
Maitriser le workflow de contribution (fork, PR, review)
Maintenir et faire evoluer un projet open source
Valoriser ses contributions dans son parcours professionnel

Contribuer a l'open source est le moyen le plus efficace de prouver vos competences a la communaute internationale. Ce n'est pas reserve aux experts : une documentation amelioree, un bug corrige, ou un test ajoute sont des contributions precieuses. Les mainteneurs de projets comme Apache Kafka ou dbt savent que le code est la partie emergee de l'iceberg - c'est la qualite de votre communication et votre rigueur qui comptent.

L'Ecosysteme Open Source Data

Fondation	Projets Phares	Governance	Comment Contribuer
Apache Software Foundation	Kafka, Spark, Flink, Airflow, Iceberg, Hudi	Merit-based, Committer/PMC	JIRA issues, mailing lists
CNCF	Kubernetes, Prometheus, Argo, Strimzi	TOC, SIG groups	GitHub issues, Slack
Linux Foundation	Delta Lake, Presto/Trino, OpenLineage	TSC, Working Groups	GitHub, Discord
Community-driven	dbt, Great Expectations, Dagster, Airbyte	Core team + community	GitHub issues, Slack/Discord

Trouver des Good First Issues

Chaque projet open source maintient des issues etiquetees pour les nouveaux contributeurs. Voici comment les trouver efficacement :

Recherche GitHub - Trouver des Issues

# Recherche sur GitHub
# URL: github.com/search?type=issues

# Issues pour debutants sur les projets data
label:"good first issue" repo:apache/kafka is:open
label:"good first issue" repo:apache/flink is:open
label:"help wanted" repo:apache/iceberg is:open
label:"good first issue" repo:dbt-labs/dbt-core is:open
label:"good first issue" repo:dagster-io/dagster is:open
label:"beginner friendly" repo:airbytehq/airbyte is:open

# Filtrer par type de contribution
label:"good first issue" label:"documentation" repo:apache/spark
label:"good first issue" label:"testing" repo:apache/airflow
label:"good first issue" label:"bug" repo:trinodb/trino

# Sites agreges utiles
# goodfirstissue.dev - Aggregation multi-projets
# up-for-grabs.net - Issues filtrees par langage
# github.com/MunGell/awesome-for-beginners - Liste curee

Workflow de Contribution

Bash - Workflow Git pour Contribution OSS

# 1. Fork et clone
gh repo fork apache/iceberg --clone
cd iceberg

# 2. Creer une branche descriptive
git checkout -b fix/partition-pruning-null-values

# 3. Configurer le remote upstream
git remote add upstream https://github.com/apache/iceberg.git
git fetch upstream

# 4. Synchroniser avec main avant de commencer
git rebase upstream/main

# 5. Effectuer les modifications
# ... editer le code ...

# 6. Lancer les tests locaux
./gradlew test -p core
./gradlew test -p spark

# 7. Verifier le style de code
./gradlew spotlessCheck

# 8. Commit avec message conventionnel
git commit -m "Core: Fix partition pruning for null values (#8234)

When a partition column contains null values, the pruning
logic incorrectly skipped the entire partition instead of
only pruning non-matching values.

Added test coverage for null partition values in both
identity and bucket transforms."

# 9. Push et creer la PR
git push origin fix/partition-pruning-null-values
gh pr create \
  --title "Core: Fix partition pruning for null values" \
  --body "Fixes #8234

## Changes
- Fixed null handling in PartitionPruning.java
- Added 3 test cases for null partition values

## Testing
- Unit tests pass locally
- Tested with Spark 3.5 integration tests"

Bonnes Pratiques pour les Pull Requests

A Faire

Lire le CONTRIBUTING.md avant tout
Commencer par des petites contributions
Ecrire des messages de commit clairs
Ajouter des tests pour chaque changement
Repondre rapidement aux commentaires de review
Etre patient : les reviews prennent du temps
Remercier les reviewers

A Eviter

PR geantes avec 50+ fichiers modifies
Reformater du code existant sans lien avec la PR
Ignorer les conventions du projet (style, tests)
Argumenter agressivement pendant la review
Abandonner apres le premier commentaire negatif
Ouvrir une PR sans avoir discute en issue d'abord
Copier du code sans respecter les licences

Maintenir un Projet Open Source

Au-dela de la contribution, maintenir votre propre projet open source demontre du leadership technique :

Structure d'un Projet OSS Bien Maintenu

mon-projet-oss/
├── .github/
│   ├── ISSUE_TEMPLATE/
│   │   ├── bug_report.md
│   │   ├── feature_request.md
│   │   └── question.md
│   ├── PULL_REQUEST_TEMPLATE.md
│   ├── workflows/
│   │   ├── ci.yml           # Tests automatiques
│   │   ├── release.yml      # Publication automatique
│   │   └── stale.yml        # Fermeture auto issues inactives
│   └── CODEOWNERS
├── docs/
│   ├── getting-started.md
│   ├── architecture.md
│   └── contributing.md
├── src/
├── tests/
├── CHANGELOG.md
├── CODE_OF_CONDUCT.md
├── CONTRIBUTING.md
├── LICENSE                   # Apache 2.0 ou MIT recommande
├── README.md
└── SECURITY.md

Les Fondations Apache et CNCF

Si vous contribuez regulierement a un projet Apache, vous pouvez etre nomme Committer (droit de merge) puis membre du PMC (Project Management Committee). Ces titres sont reconnus mondialement dans l'industrie. Pour la CNCF, l'equivalent est le statut de Maintainer. Ces roles ouvrent des portes pour des postes de Staff/Principal Architect et des invitations aux conferences majeures.

Maxime B. - De Contributeur a Apache Committer

Maxime a commence par corriger des typos dans la documentation d'Apache Iceberg en 2022. En 18 mois :

5 contributions documentation, puis 3 bug fixes, puis 2 features
Propose comme Committer par un PMC member apres 15 PRs mergees
Invite comme speaker a Iceberg Summit 2024
Recrute comme Staff Engineer chez Tabular (startup fondee par les createurs d'Iceberg)
Conseil : "La cle, c'est la regularite. Une PR par mois pendant un an vaut mieux que 10 PRs en une semaine puis plus rien."

Quels sont les 5 niveaux de contribution dans un projet Apache ?

1. User : Utilise le projet et remonte des bugs via les mailing lists.
2. Contributor : Soumet des patches, documentation, et participe aux discussions.
3. Committer : Droit de merge les PRs, reconnu pour des contributions soutenues et de qualite.
4. PMC Member : Membre du comite de gestion du projet, vote sur les releases et les nouveaux committers.
5. ASF Member : Membre de la fondation Apache, nomme pour des contributions exceptionnelles a l'ecosysteme global.

Lecon 14 : Blog & Personal Branding

60 min Intermediaire

Objectifs d'apprentissage

Developper une strategie de contenu technique (blog, articles)
Preparer et presenter des talks en conference
Optimiser son profil LinkedIn pour le personal branding
Construire et animer une communaute professionnelle
Transformer son expertise en influence dans l'ecosysteme data

Le personal branding n'est pas de la vanite : c'est un investissement strategique dans votre carriere. Les Data Architects les plus influents ne sont pas forcement les plus techniques. Ce sont ceux qui savent communiquer leurs idees clairement, partager leurs apprentissages, et inspirer les autres. Un article de blog bien ecrit peut avoir plus d'impact sur votre carriere qu'un an de travail invisible.

Strategie de Contenu Technique

Ecrire regulierement sur des sujets techniques positionne votre expertise et attire des opportunites. La cle est la regularite et la valeur apportee au lecteur.

La Regle du 70-20-10

70% de contenu pratique : tutoriels, retours d'experience, solutions a des problemes concrets.
20% de contenu conceptuel : analyses d'architecture, comparaisons technologiques, tendances.
10% de contenu opinion : prises de position, predictions, reflexions sur le metier.

Plateformes de Publication

Plateforme	Audience	Avantages	Inconvenients
Blog personnel (Hugo/Astro)	SEO long terme	Controle total, SEO, credibilite	Effort de maintenance
Medium / Substack	Large, generaliste	Distribution integree, facile	Paywall, peu de controle
dev.to / Hashnode	Developpeurs	Communaute active, gratuit	Audience plus junior
LinkedIn Articles	Professionnels	Visibilite reseau, B2B	Format limite
GitHub (README/Wiki)	Technique	Integration projets, durable	Pas de distribution

Template d'Article Technique

Markdown - Structure Article Blog

---
title: "Comment nous avons reduit notre cout Snowflake de 60%
        sans sacrifier la performance"
date: 2025-03-15
tags: [snowflake, cost-optimization, data-architecture]
reading_time: 8 min
---

## Le Probleme (Hook - 2 paragraphes max)
En 6 mois, notre facture Snowflake est passee de 8K a 22K EUR/mois.
Voici comment nous avons inverse la tendance.

## Contexte (Pour qui c'est pertinent)
- Volume: 500 Go/jour, 50+ utilisateurs BI
- Stack: Airbyte + dbt + Snowflake + Tableau
- Equipe: 3 data engineers, 2 analysts

## Diagnostic (Qu'avons-nous decouvert)
### 1. Warehouses surdimensionnes
[Tableau comparatif avant/apres]

### 2. Requetes non-optimisees
[Exemples de query plans, avec les couts]

### 3. Clustering absent
[Impact mesure sur les scans]

## Solution (Etape par etape)
### Etape 1: Resource Monitors
```sql
CREATE RESOURCE MONITOR cost_control
  WITH CREDIT_QUOTA = 100
  TRIGGERS
    ON 80 PERCENT DO NOTIFY
    ON 100 PERCENT DO SUSPEND;
```

### Etape 2: Auto-suspend agressif
[Configuration + resultats]

### Etape 3: Clustering strategique
[Tables ciblees + metriques]

## Resultats (Chiffres concrets)
| Metrique | Avant | Apres | Gain |
|----------|-------|-------|------|
| Cout mensuel | 22K EUR | 8.5K EUR | -61% |
| Query p95 | 12s | 8s | -33% |

## Lecons Apprises (Takeaways)
1. Monitorer les couts des le jour 1
2. Chaque warehouse doit avoir un owner
3. [...]

## Ressources
- [Lien documentation Snowflake]
- [Repo GitHub avec les scripts]

Preparer un Talk en Conference

Presenter en conference est l'accelerateur de carriere le plus puissant pour un Data Architect. Les conferences majeures a cibler :

Tier 1 : Data Council, Kafka Summit, Spark Summit, dbt Coalesce, Snowflake Summit
Tier 2 : DataEngBytes, Berlin Buzzwords, Big Data LDN, Paris Data Engineers
Tier 3 : Meetups locaux, webinaires entreprise, lunch & learn internes

Commencer par les Meetups

Ne visez pas directement les grandes conferences. Commencez par un lightning talk (5-10 min) dans un meetup local, puis un talk de 30 min, puis soumettez un CFP (Call for Papers) a une conference regionale. Chaque presentation renforce votre confiance et affine votre message. Les organisateurs de conferences majeures regardent souvent les talks de meetups pour reperer de nouveaux speakers.

Strategie LinkedIn pour Data Architects

Profil Optimise

Headline : "Data Architect | Streaming | Delta Lake | Ex-Datadog"
About : 3 paragraphes - expertise, realisations, vision
Featured : Lien portfolio, article phare, talk video
Experience : Resultats quantifies, pas des taches
Recommandations : 3-5 de managers et peers

Calendrier de Publication

Lundi : Partage d'article avec commentaire personnel
Mercredi : Post technique (astuce, retour d'experience)
Vendredi : Reflexion sur le metier ou la communaute
Mensuel : Article long format (1500+ mots)
Engagement : Commenter 3-5 posts par jour

Julie L. - De Data Engineer a Thought Leader

Julie a lance un blog technique en 2022 en publiant un article par mois sur ses experiences de migration vers le cloud :

Premier article : 200 vues. Sixieme article : 15 000 vues sur Medium
Invitee a parler a Data Council Berlin apres un article viral sur les anti-patterns de Data Mesh
Profil LinkedIn passe de 2 000 a 18 000 followers en 18 mois
3 offres de postes de Principal Architect recues via LinkedIn (sans postuler)
Secret : "J'ecris sur les echecs et les lecons apprises, pas sur les succes. Les gens s'identifient aux problemes, pas aux solutions parfaites."

Personal branding sans substance

Publier du contenu superficiel ou recycler les buzzwords a la mode (GenAI, LLM, Data Mesh) sans profondeur detruit votre credibilite aupres des professionnels seniors. Un post LinkedIn "Top 10 outils data en 2025" sans experience personnelle n'apporte aucune valeur. Privilegiez toujours le vecu : "Voici comment NOUS avons resolu CE probleme avec CET outil, et voici les limites qu'on a rencontrees."

Simulation : Votre Premier CFP (Call for Papers)

Vous soumettez un talk a Kafka Summit. Le comite demande : titre, abstract (200 mots), outline, et pourquoi le public devrait ecouter. Exercez-vous avec ce template :

Titre : Court, specifique, avec un chiffre si possible ("How We Reduced Kafka Lag from 2 Hours to 30 Seconds")
Abstract : Probleme → Solution → Ce que le public apprendra
Outline : 4-5 sections avec timing
Speaker bio : 2-3 phrases, pertinentes pour le sujet

Quels sont les 3 piliers d'une strategie de personal branding efficace pour un Data Architect ?

1. Contenu regulier : Articles de blog, posts LinkedIn, et partage d'experience technique (minimum 2-4 contenus par mois).
2. Presentations publiques : Meetups, conferences, webinaires - progresser du local vers l'international.
3. Communaute : Contribuer activement (repondre aux questions, mentorer, organiser des evenements) plutot que simplement diffuser. Le branding durable se construit sur la generosite, pas l'autopromotion.

Lecon 15 : Lab - Architecture C4 Model

90 min Avance

Objectifs d'apprentissage

Maitriser les 4 niveaux du C4 Model (Context, Container, Component, Code)
Utiliser Structurizr DSL pour generer des diagrammes d'architecture
Documenter une data platform complete avec le C4 Model
Integrer les diagrammes dans la documentation as code (CI/CD)
Appliquer les bonnes pratiques de notation et de lisibilite

Le C4 Model est devenu le standard pour la documentation d'architecture logicielle. Cree par Simon Brown, il resout le probleme numero un des diagrammes : le manque de niveaux d'abstraction. Trop souvent, on voit des diagrammes qui melangent des serveurs physiques avec des concepts business. Le C4 vous force a etre methodique : un niveau de zoom a la fois.

Les 4 Niveaux du C4 Model

C4 Model - Niveaux de Zoom

    Level 1: CONTEXT                Level 2: CONTAINER
    ┌─────────────────┐            ┌─────────────────────────┐
    │   Qui utilise    │            │   Quels containers      │
    │   le systeme?    │            │   composent le systeme? │
    │                  │            │                         │
    │  [Personnes]     │    Zoom    │  [Web App]  [API]      │
    │  [Systemes       │   ────►   │  [Database] [Queue]     │
    │   externes]      │            │  [Stockage] [Workers]  │
    │  [Notre systeme] │            │                         │
    └─────────────────┘            └─────────────────────────┘
              │                                │
              │                                │
    Level 3: COMPONENT                Level 4: CODE
    ┌─────────────────────────┐    ┌─────────────────────────┐
    │   Comment chaque         │    │   Classes, interfaces,  │
    │   container est           │    │   modules internes      │
    │   structure?             │    │                         │
    │                          │    │  (Rarement necessaire   │
    │  [Service A] [Service B] │    │   pour documentation    │
    │  [Repository] [Gateway]  │    │   d'architecture)       │
    └─────────────────────────┘    └─────────────────────────┘

Lab Pratique : Documenter une Data Platform avec Structurizr DSL

Dans ce lab, vous allez creer les diagrammes C4 complets pour une plateforme de donnees e-commerce en utilisant Structurizr DSL.

Etape 1 : Installation de Structurizr

Bash - Installation

# Option 1: Structurizr CLI (Java)
brew install structurizr-cli  # macOS
# ou telechargement direct depuis structurizr.com/help/cli

# Option 2: Structurizr Lite (Docker)
docker run -it --rm -p 8080:8080 \
  -v $(pwd)/workspace:/usr/local/structurizr \
  structurizr/lite

# Option 3: Extension VS Code
# Installer "Structurizr DSL" depuis le marketplace

# Verifier l'installation
structurizr-cli version

Etape 2 : Level 1 - System Context Diagram

Structurizr DSL - Context

workspace "E-Commerce Data Platform" "Architecture C4 pour portfolio" {

    model {
        # Personas
        dataAnalyst = person "Data Analyst" "Analyse les donnees de vente et marketing" "Analyst"
        dataScientist = person "Data Scientist" "Construit des modeles ML pour recommandations" "ML"
        businessUser = person "Business User" "Consulte les dashboards et rapports" "Business"
        dataEngineer = person "Data Engineer" "Opere et maintient les pipelines" "Engineer"

        # Systemes externes
        ecommerceApp = softwareSystem "Plateforme E-Commerce" "Application web et mobile de vente en ligne" "External"
        crmSystem = softwareSystem "Systeme CRM" "Salesforce - Gestion relation client" "External"
        erpSystem = softwareSystem "ERP" "SAP - Gestion finance et supply chain" "External"
        partnerAPIs = softwareSystem "APIs Partenaires" "Donnees fournisseurs et marketplaces" "External"

        # Notre systeme
        dataPlatform = softwareSystem "Data Platform" "Plateforme de donnees centralisee pour l'analytics, le ML et le reporting" {
            # Les containers seront definis au Level 2
        }

        # Relations Context
        dataAnalyst -> dataPlatform "Explore et analyse les donnees" "SQL, BI Tools"
        dataScientist -> dataPlatform "Entraine des modeles ML" "Python, Notebooks"
        businessUser -> dataPlatform "Consulte les dashboards" "Tableau, Metabase"
        dataEngineer -> dataPlatform "Opere les pipelines" "Dagster UI, Grafana"

        ecommerceApp -> dataPlatform "Envoie evenements et commandes" "Kafka, CDC"
        crmSystem -> dataPlatform "Synchronise donnees clients" "API REST"
        erpSystem -> dataPlatform "Exporte donnees finance" "SFTP, API"
        partnerAPIs -> dataPlatform "Fournit donnees produits" "REST API"
    }

    views {
        systemContext dataPlatform "Context" {
            include *
            autoLayout
            description "Vue d'ensemble de la Data Platform et son ecosysteme"
        }
    }
}

Etape 3 : Level 2 - Container Diagram

Structurizr DSL - Containers

        # A inserer dans le bloc dataPlatform { ... }

        # Couche Ingestion
        kafkaCluster = container "Apache Kafka" "Message broker pour ingestion temps reel" "Kafka 3.6" "Queue"
        debeziumCDC = container "Debezium CDC" "Change Data Capture depuis bases operationnelles" "Debezium 2.5" "Service"
        airbyteSync = container "Airbyte" "Synchronisation batch des sources externes" "Airbyte Cloud" "Service"

        # Couche Stockage
        dataLake = container "Data Lake" "Stockage Bronze/Silver/Gold en Delta Lake" "S3 + Delta Lake" "Storage"

        # Couche Transformation
        dbtTransform = container "dbt Core" "Transformations SQL - modeles Silver et Gold" "dbt 1.7" "Service"
        sparkJobs = container "Spark Jobs" "Transformations complexes et ML feature engineering" "Spark 3.5" "Service"
        qualityGates = container "Great Expectations" "Validation qualite des donnees" "GX 0.18" "Service"

        # Couche Orchestration
        dagsterOrch = container "Dagster" "Orchestration des pipelines" "Dagster 1.6" "Service"

        # Couche Serving
        biDashboards = container "Tableau Server" "Dashboards executives et operationnels" "Tableau 2024.1" "WebApp"
        metabase = container "Metabase" "Self-service analytics pour les equipes" "Metabase 0.48" "WebApp"
        featureStore = container "Feast" "Feature Store pour modeles ML" "Feast 0.35" "Service"
        dataAPI = container "Data API" "API GraphQL pour applications" "Hasura + PostgREST" "Service"

        # Couche Transversale
        dataCatalog = container "DataHub" "Catalogue de donnees et lineage" "DataHub 0.13" "WebApp"
        monitoring = container "Grafana Stack" "Monitoring et alerting" "Grafana + Prometheus" "WebApp"

        # Relations entre containers
        debeziumCDC -> kafkaCluster "Publie les changements" "Avro/Protobuf"
        airbyteSync -> dataLake "Ecrit les donnees batch" "Parquet"
        kafkaCluster -> dataLake "Consomme et stocke" "Kafka Connect"

        dataLake -> dbtTransform "Source Bronze" "Delta Lake"
        dataLake -> sparkJobs "Source Bronze" "Delta Lake"
        dbtTransform -> dataLake "Ecrit Silver/Gold" "Delta Lake"
        sparkJobs -> dataLake "Ecrit Silver/Gold" "Delta Lake"
        qualityGates -> dataLake "Valide la qualite" "Python"

        dagsterOrch -> dbtTransform "Orchestre" "API"
        dagsterOrch -> sparkJobs "Orchestre" "API"
        dagsterOrch -> qualityGates "Declenche" "API"
        dagsterOrch -> airbyteSync "Declenche" "API"

        dataLake -> biDashboards "Alimente" "SQL/JDBC"
        dataLake -> metabase "Alimente" "SQL"
        dataLake -> featureStore "Alimente" "Python"
        dataLake -> dataAPI "Alimente" "SQL"

        dataCatalog -> dataLake "Scanne metadata" "API"
        monitoring -> dagsterOrch "Collecte metriques" "Prometheus"

Etape 4 : Level 3 - Component Diagram (Couche Transformation)

Structurizr DSL - Components

        # Components du container dbtTransform
        # A detailler dans le bloc dbtTransform

        stagingModels = component "Staging Models" "Nettoyage et typage des sources brutes" "dbt SQL"
        intermediateModels = component "Intermediate Models" "Jointures et logique metier intermediaire" "dbt SQL"
        martModels = component "Mart Models" "Tables finales optimisees pour la consommation" "dbt SQL"
        dbtTests = component "dbt Tests" "Tests de qualite integres (unique, not_null, accepted_values)" "dbt YAML"
        dbtMacros = component "Macros" "Fonctions SQL reutilisables (SCD, hash, audit)" "dbt Jinja"
        dbtDocs = component "Documentation" "Generation automatique de la documentation" "dbt docs"

        # Flux entre components
        stagingModels -> intermediateModels "Alimente" "ref()"
        intermediateModels -> martModels "Alimente" "ref()"
        dbtTests -> stagingModels "Valide" "tests"
        dbtTests -> martModels "Valide" "tests"
        dbtMacros -> stagingModels "Utilise par" "macro"
        dbtMacros -> intermediateModels "Utilise par" "macro"
        martModels -> dbtDocs "Documente" "description"

Etape 5 : Generation et Integration CI/CD

YAML - GitHub Actions pour Diagrammes

# .github/workflows/architecture-docs.yml
name: Generate Architecture Diagrams

on:
  push:
    paths:
      - 'docs/architecture/**'
  pull_request:
    paths:
      - 'docs/architecture/**'

jobs:
  generate-diagrams:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4

      - name: Generate C4 diagrams
        run: |
          docker run --rm \
            -v ${{ github.workspace }}/docs/architecture:/workspace \
            structurizr/cli \
            export \
            -workspace /workspace/workspace.dsl \
            -format plantuml \
            -output /workspace/generated

      - name: Convert to PNG
        run: |
          docker run --rm \
            -v ${{ github.workspace }}/docs/architecture:/data \
            plantuml/plantuml \
            -tpng /data/generated/*.puml

      - name: Upload artifacts
        uses: actions/upload-artifact@v4
        with:
          name: architecture-diagrams
          path: docs/architecture/generated/*.png

      - name: Comment PR with diagrams
        if: github.event_name == 'pull_request'
        uses: actions/github-script@v7
        with:
          script: |
            github.rest.issues.createComment({
              issue_number: context.issue.number,
              owner: context.repo.owner,
              repo: context.repo.repo,
              body: '## Architecture Diagrams Updated\n\nNew diagrams generated. Check artifacts.'
            })

Erreurs Frequentes avec le C4 Model

Trop de detail au Level 1 : Le Context ne doit montrer que les personnes et systemes, pas les bases de donnees
Melanger les niveaux : Ne mettez pas des classes Java dans un diagramme Container
Oublier les relations : Chaque fleche doit avoir un label (protocole, technologie)
Diagramme unique : Un seul diagramme "qui montre tout" est un anti-pattern - utilisez les niveaux de zoom

Quelle est la difference entre un Container et un Component dans le C4 Model ?

Container : Unite de deploiement ou d'execution (application web, API, base de donnees, message queue, file system). C'est quelque chose qui doit tourner pour que le systeme fonctionne. Exemples : "API Spring Boot", "PostgreSQL", "Kafka Cluster".

Component : Groupement logique de code a l'interieur d'un container. C'est une abstraction de votre code, pas un processus separe. Exemples : "OrderService", "PaymentGateway", "AuthenticationModule".

Pourquoi Structurizr DSL est prefere a Draw.io pour la documentation d'architecture ?

Diagrams as Code : Structurizr DSL est du texte versionnable dans Git, ce qui permet le review de PR, le diff, et l'historique des changements. Draw.io produit du XML binaire difficile a reviewer.

Coherence : Un seul modele genere tous les niveaux de vue automatiquement, garantissant la coherence entre Context, Container et Component.

Automatisation : Integration CI/CD pour regenerer les diagrammes a chaque changement, evitant la documentation obsolete.

Lecon 16 : Quiz Portfolio & Projets

30 min Intermediaire

Objectifs d'apprentissage

Valider ses connaissances sur la construction d'un portfolio professionnel
Verifier sa comprehension des architectures E2E, streaming et Data Mesh
Consolider les bonnes pratiques de contribution open source et de personal branding
Maitriser le C4 Model et Structurizr DSL

Ce quiz couvre l'ensemble du Module 6.2. Prenez le temps de bien lire chaque question et toutes les options avant de repondre. Les questions sont concues pour tester votre comprehension en profondeur, pas simplement la memorisation. Si vous obtenez moins de 6/8, relisez les lecons correspondantes avant de passer au module suivant.

Quiz - Portfolio & Projets (8 questions)

Q1. Quels sont les 3 elements indispensables qu'un recruteur senior attend dans un projet portfolio de Data Architect ?

A. Du code propre, des tests unitaires et un Dockerfile

B. Des diagrammes C4, des ADR documentes et des metriques de performance

C. Un nombre eleve d'etoiles GitHub, des contributions frequentes et un blog

D. Une stack technologique recente, un deploiement Kubernetes et du monitoring

Reponse B. Les diagrammes C4 prouvent la vision systemique, les ADR documentent le raisonnement architectural, et les metriques quantifient la valeur du systeme. Le code propre est attendu mais ne suffit pas pour un role d'architect.

Q2. Dans l'architecture Data Platform E2E, pourquoi utilise-t-on Debezium plutot qu'un simple export SQL periodique pour capturer les commandes ?

A. Debezium est plus rapide car il utilise le GPU

B. Le CDC capture les changements en temps reel sans impacter la base source, via la lecture du WAL

C. L'export SQL est deprecie depuis PostgreSQL 15

D. Debezium est necessaire pour la conformite RGPD

Reponse B. Debezium lit le Write-Ahead Log (WAL) de PostgreSQL, capturant chaque INSERT, UPDATE et DELETE en temps reel sans executer de requetes lourdes sur la base source. Cela reduit la latence et elimine la charge supplementaire sur la base operationnelle.

Q3. Quel mecanisme Flink utilise-t-il pour garantir la semantique exactly-once en cas de panne ?

A. Replication synchrone des donnees entre les TaskManagers

B. Checkpointing distribue base sur l'algorithme Chandy-Lamport

C. Transactions distribuees avec un protocole 2PC (Two-Phase Commit)

D. Idempotence automatique de tous les operateurs Flink

Reponse B. Flink utilise l'algorithme de snapshot distribue Chandy-Lamport pour creer des checkpoints coherents de l'etat global du pipeline. En cas de panne, le systeme restaure le dernier checkpoint et rejoue les evenements depuis les offsets Kafka sauvegardes.

Q4. Dans le Data Mesh, que signifie concretement "Data as a Product" ?

A. Les donnees sont vendues comme un produit commercial aux clients externes

B. Chaque dataset est gere avec des SLA, de la documentation, de la qualite et de la decouverte, comme un produit logiciel

C. Les donnees sont stockees dans un data product catalog propriertaire

D. Chaque equipe doit utiliser le meme outil de gestion de produit (JIRA, Linear)

Reponse B. "Data as a Product" signifie traiter chaque dataset publie avec les memes exigences qu'un produit logiciel : SLA de disponibilite, documentation claire, qualite mesuree automatiquement, schema versionne, et decouverte via un catalogue. Le "consommateur" de donnees est traite comme un client.

Q5. Quel est le premier pas recommande pour commencer a contribuer a un projet open source Apache ?

A. Soumettre immediatement une PR avec une nouvelle fonctionnalite majeure

B. Forker le projet et refactorer le code existant

C. Lire le CONTRIBUTING.md, rejoindre la mailing list, et commencer par des issues etiquetees "good first issue"

D. Creer un fork avec un nouveau nom et publier sa propre version

Reponse C. La bonne approche est progressive : lire la documentation de contribution, observer les discussions sur la mailing list pour comprendre la culture du projet, puis commencer par des petites contributions (documentation, tests, bugs simples) etiquetees "good first issue". La confiance se construit graduellement.

Q6. Dans le C4 Model, a quel niveau trouve-t-on "Apache Kafka" et "PostgreSQL" ?

A. Level 1 - System Context : ce sont des systemes externes

B. Level 2 - Container : ce sont des unites de deploiement/execution

C. Level 3 - Component : ce sont des composants logiciels

D. Level 4 - Code : ce sont des implementations techniques

Reponse B. Dans le C4 Model, Kafka et PostgreSQL sont des "Containers" - des unites de deploiement ou d'execution qui doivent tourner pour que le systeme fonctionne. Le Level 1 (Context) ne montre que les systemes dans leur globalite et les personnes. Le Level 3 (Component) montre la structure interne d'un container.

Q7. Quelle est la regle 70-20-10 pour une strategie de contenu technique ?

A. 70% code, 20% documentation, 10% tests

B. 70% LinkedIn, 20% blog, 10% conferences

C. 70% contenu pratique (tutoriels, REX), 20% conceptuel (analyses, comparaisons), 10% opinion (prises de position)

D. 70% anglais, 20% francais, 10% video

Reponse C. La regle 70-20-10 definit la repartition optimale du contenu : 70% pratique (tutoriels, retours d'experience, solutions concretes), 20% conceptuel (analyses d'architecture, comparaisons technologiques), et 10% opinion (predictions, reflexions sur le metier). Cette repartition assure credibilite et engagement.

Q8. Pourquoi Structurizr DSL est-il prefere a des outils graphiques comme Draw.io pour la documentation d'architecture dans un contexte professionnel ?

A. Structurizr genere des diagrammes plus esthetiques

B. Draw.io ne supporte pas les diagrammes d'architecture

C. Structurizr est le seul outil compatible avec le C4 Model

D. Le DSL est versionnable dans Git, permet le review de PR, et un modele unique genere tous les niveaux de vue de maniere coherente

Reponse D. Structurizr DSL est du texte pur, donc versionnable dans Git avec diff lisibles et reviews de PR possibles. Un seul modele genere automatiquement Context, Container et Component, garantissant la coherence. L'integration CI/CD permet de regenerer les diagrammes a chaque changement, evitant la documentation obsolete.

Evaluation de vos Resultats

8/8 : Excellent ! Vous maitrisez les concepts du Module 6.2. Passez au Module 6.3.
6-7/8 : Bon niveau. Relisez les lecons correspondant aux questions ratees.
4-5/8 : A renforcer. Reprenez les lecons 9 a 15 en prenant des notes.
0-3/8 : Insuffisant. Recommencez le module depuis la lecon 9 avant de continuer.

Lecon 16 : Stakeholder Management

55 min Avance

Objectifs de la lecon

Maitriser la matrice RACI pour les projets data
Construire des plans de communication adaptes a chaque audience
Creer des presentations executives percutantes
Gerer les attentes des parties prenantes efficacement
Influencer sans autorite hierarchique

La competence la plus sous-estimee d'un Data Architect n'est pas technique : c'est sa capacite a communiquer la valeur de l'architecture data aux personnes qui n'ont aucune idee de ce que c'est. Apprenez a parler le langage du business, pas celui de la technologie.

Pourquoi le Stakeholder Management est Critique

Un Data Architect peut concevoir l'architecture la plus elegante du monde, si les stakeholders ne la comprennent pas, ne la soutiennent pas ou ne l'adoptent pas, le projet echouera. Selon une etude de Gartner, plus de 60% des projets data echouent non pas pour des raisons techniques, mais pour des raisons organisationnelles et de communication.

Definition : Stakeholder

Toute personne ou groupe qui est affecte par, ou qui peut affecter, les decisions architecturales data. Cela inclut les sponsors executifs, les equipes metier, les developpeurs, les equipes compliance, et meme les utilisateurs finaux des donnees.

La Matrice RACI pour les Projets Data

La matrice RACI est un outil fondamental pour clarifier les roles et responsabilites dans un projet data. Chaque lettre definit un niveau d'implication precis :

Lettre	Role	Description
R - Responsible	Executant	Celui qui fait le travail. Il peut y avoir plusieurs R.
A - Accountable	Approbateur	Celui qui rend des comptes. Un seul A par tache.
C - Consulted	Consulte	Celui dont l'avis est sollicite avant la decision.
I - Informed	Informe	Celui qui est tenu au courant apres la decision.

RACI Matrix - Projet Data Platform

Tache                      | CTO | Data Arch | Data Eng | Product | Legal
==========================================================================
Selection techno DWH        |  A  |     R     |    C     |    I    |   I
Modelisation donnees        |  I  |     A     |    R     |    C    |   I
Politique de securite       |  A  |     C     |    I     |    I    |   R
Definition SLA              |  A  |     R     |    C     |    C    |   I
Migration donnees           |  I  |     A     |    R     |    C    |   I
Choix outil BI              |  I  |     C     |    I     |    A    |   I
Conformite RGPD             |  A  |     C     |    I     |    I    |   R
Data Quality Rules          |  I  |     A     |    R     |    C    |   I
Budget annuel data          |  A  |     R     |    I     |    C    |   I
Formation equipes           |  I  |     R     |    C     |    C    |   I

Piege courant

Ne jamais avoir plus d'un "A" (Accountable) par tache. Si personne n'est clairement responsable du resultat final, personne ne le sera. C'est la premiere cause de blocage dans les projets data.

Plan de Communication par Audience

Chaque type de stakeholder necessite un plan de communication adapte a son niveau de technicite, ses preoccupations et sa frequence d'interaction :

Audience	Frequence	Format	Contenu cle
C-Level (CEO, CFO, CTO)	Mensuel	Dashboard executif 1 page	ROI, risques strategiques, avancement global
VP / Directors	Bi-mensuel	Presentation 10 slides	Jalons, decisions requises, blocages
Product Managers	Hebdomadaire	Standup + Confluence	Impact produit, timelines, dependances
Data Engineers	Quotidien	Slack + JIRA	Specs techniques, revues de code, ADRs
Legal / Compliance	Mensuel ou ad hoc	Documents formels	RGPD, retention, lineage, audit trail
Utilisateurs finaux	Trimestriel	Newsletter + demo	Nouvelles fonctionnalites, formations

Presentations Executives : La Regle du Pyramid Principle

Barbara Minto, ex-McKinsey, a formalise le Pyramid Principle : commencez par la conclusion, puis detaillez. Les executifs n'ont pas le temps de lire vos 40 slides pour arriver a la recommandation finale.

Structure d'une Presentation Executive (Pyramid Principle)

                    ┌─────────────────────┐
                    │   RECOMMANDATION    │
                    │  "Migrer vers       │
                    │   Snowflake en Q3"  │
                    └─────────┬───────────┘
              ┌───────────────┼───────────────┐
              ▼               ▼               ▼
      ┌──────────────┐┌──────────────┐┌──────────────┐
      │  Argument 1  ││  Argument 2  ││  Argument 3  │
      │ Cout: -40%   ││ Perf: x10    ││ Time-to-     │
      │ TCO sur 3 ans││ sur requetes ││ market: -60% │
      └──────┬───────┘└──────┬───────┘└──────┬───────┘
     ┌───┬───┘       ┌───┬───┘       ┌───┬───┘
     ▼   ▼           ▼   ▼           ▼   ▼
   Data Data       Data Data       Data Data
   Point Point     Point Point     Point Point

Template - Email Executif

Objet : [DECISION REQUISE] Migration Data Warehouse - Impact Budget Q3

Bonjour [Nom],

RECOMMANDATION : Approuver la migration vers Snowflake pour un Go-Live en Q3.

POURQUOI MAINTENANT :
- Le contrat Oracle expire en septembre (penalites si renouvellement tardif)
- Les couts actuels augmentent de 25% par an
- L'equipe produit est bloquee pour le lancement du nouveau dashboard

IMPACT BUSINESS :
- Economie de 340K EUR/an sur le TCO
- Requetes analytiques 10x plus rapides
- Time-to-market reduit de 60% pour les nouveaux use cases

RISQUES SI ON NE FAIT RIEN :
- Renouvellement Oracle : +180K EUR/an
- Perte de 2 data engineers frustres par l'outil actuel
- Retard de 6 mois sur la roadmap produit

DECISION DEMANDEE : Validation du budget de 120K EUR pour le projet de migration.

[Votre nom]
Data Architect

Gerer les Attentes

La gestion des attentes est un equilibre delicat entre ambition et realisme. Voici les techniques eprouvees :

Technique "Under-promise, Over-deliver"

Annoncez un delai realiste avec une marge de 20%. Si vous pensez livrer en 3 mois, annoncez 3.5 mois. Livrer en avance cree de la confiance. Livrer en retard la detruit. Un Data Architect qui tient ses promesses vaut plus que celui qui promet la lune.

Scenario : Conversation Difficile avec un VP

Contexte : Le VP Marketing veut un "data lake operationnel dans 4 semaines" pour sa campagne Black Friday. Vous savez que c'est impossible en moins de 3 mois.

Mauvaise reponse : "C'est impossible, il nous faut minimum 3 mois."

Bonne reponse : "Je comprends l'urgence de Black Friday. Voici ce que je propose : en 4 semaines, nous pouvons livrer un MVP avec les 3 sources de donnees les plus critiques pour votre campagne. Le data lake complet avec les 12 sources sera pret en 3 mois. Voulez-vous qu'on priorise ensemble les sources les plus impactantes pour votre campagne ?"

Pourquoi ca marche : Vous montrez de l'empathie, proposez une solution partielle viable, donnez une timeline realiste pour le reste, et impliquez le stakeholder dans la priorisation.

Influencer sans Autorite Hierarchique

En tant que Data Architect, vous n'avez souvent aucune autorite hierarchique sur les equipes que vous devez influencer. Voici les leviers d'influence :

Levier	Description	Exemple concret
Expertise	Etre reconnu comme la reference technique	Publier des ADRs clairs, faire des presentations techniques
Reciprocite	Aider les autres pour creer un devoir moral	Aider un dev a resoudre un probleme de performance
Coalition	S'allier avec d'autres influenceurs	Convaincre d'abord le Tech Lead, puis aller ensemble voir le VP
Donnees	Appuyer ses arguments sur des faits	Montrer les metriques de performance avant/apres
Vision	Peindre un futur desirable	"Imaginez pouvoir lancer un nouveau rapport en 2h au lieu de 2 semaines"

Netflix : La Culture du Context, Not Control

Netflix est celebre pour sa philosophie "Context, Not Control". Plutot que de donner des ordres, les leaders fournissent le contexte strategique et laissent les equipes prendre les decisions. Le Data Architect chez Netflix ne dit pas "utilisez Iceberg", il explique pourquoi Iceberg resout le probleme de cout et de performance, puis laisse l'equipe choisir.

Les ADRs sont partages publiquement en interne
Les decisions architecturales sont discutees dans des "Architecture Review Boards"
Chaque equipe peut challenger une decision avec des donnees
Le resultat : adoption naturelle des standards, sans friction

Anti-Pattern : L'Architecte Tour d'Ivoire

L'architecte qui ecrit des documents de 200 pages que personne ne lit, ne descend jamais dans le code, et impose ses decisions par email sans discussion. Resultat : les equipes contournent ses recommandations, creent du shadow IT, et l'architecture reelle diverge completement de l'architecture documentee.

Symptome : "L'architecte a dit..." suivi de roulements d'yeux
Remede : passer 30% de son temps avec les equipes de developpement
Objectif : etre vu comme un enabler, pas comme un bottleneck

Echec : Transformation Data sans Change Management

Une grande banque europeenne a investi 15 millions d'euros dans une plateforme data centralisee. Architecture parfaite sur le papier. Mais ils ont neglige le change management :

Les equipes metier n'ont jamais ete consultees sur leurs besoins reels
La formation a ete un PDF de 80 pages envoye par email
Les champions data dans chaque equipe n'ont jamais ete identifies
Aucun quick win n'a ete communique pendant les 18 mois de projet

Resultat : 18 mois apres le go-live, seulement 12% des utilisateurs cibles utilisaient la plateforme. Le CEO a qualifie le projet de "gouffre financier". Le Data Architect et le CDO ont quitte l'entreprise.

Lecon : La meilleure architecture du monde ne vaut rien si personne ne l'utilise. Le change management doit commencer au jour 1, pas au go-live.

Quelle est la difference entre "Responsible" et "Accountable" dans une matrice RACI ?

Le Responsible est celui qui fait le travail (executant). L'Accountable est celui qui rend des comptes et prend la decision finale (approbateur). Il ne peut y avoir qu'un seul A par tache, mais plusieurs R. Le A repond de la qualite du resultat, meme s'il ne fait pas le travail lui-meme.

Qu'est-ce que le Pyramid Principle de Barbara Minto ?

Le Pyramid Principle consiste a structurer une communication en commencant par la conclusion / recommandation, puis en descendant vers les arguments qui la supportent, et enfin les donnees qui prouvent chaque argument. C'est l'inverse de l'approche academique (contexte → analyse → conclusion). Les executifs veulent la reponse en premier.

Quiz : Stakeholder Management

Dans une matrice RACI, combien de personnes peuvent etre "Accountable" pour une seule tache ?

Autant que necessaire

Exactement une seule

Deux maximum

Au moins trois

Correct ! Il ne doit y avoir qu'un seul Accountable par tache. C'est la regle d'or du RACI. Si tout le monde est responsable, personne ne l'est.

Quelle est la meilleure approche pour presenter une recommandation a un C-Level ?

Commencer par le contexte technique detaille

Envoyer un document de 50 pages pour etre exhaustif

Commencer par la recommandation, puis les arguments cles

Laisser le stakeholder decouvrir la conclusion par lui-meme

Correct ! Le Pyramid Principle : commencer par la recommandation, puis les arguments, puis les donnees. Les executifs veulent la reponse en premier.

Lecon 17 : Team Building Data

60 min Avance

Objectifs de la lecon

Definir les roles cles d'une equipe data performante
Construire une matrice de competences (skill matrix)
Recruter des data engineers et data analysts efficacement
Appliquer les team topologies au contexte data
Mettre en place des career ladders et des programmes de mentoring

Construire une equipe data, ce n'est pas juste embaucher des gens qui savent coder en SQL. C'est assembler un puzzle de competences complementaires, creer une culture de la qualite, et donner a chacun une trajectoire de croissance. L'equipe que vous construisez determinera la qualite de votre architecture pendant des annees.

Anatomie d'une Equipe Data Performante

Une equipe data mature comporte plusieurs roles specialises. Chaque role a un perimetre clair, mais les frontieres doivent rester permeables pour favoriser la collaboration :

Role	Responsabilite principale	Competences cles	Ratio typique
Data Architect	Vision, standards, gouvernance	Modelisation, cloud, communication	1 pour 8-12 engineers
Data Engineer	Pipelines, infrastructure, ETL/ELT	Python, SQL, Spark, Airflow, cloud	Coeur de l'equipe
Analytics Engineer	Transformation, modelisation analytique	dbt, SQL, data modeling, BI	1 pour 3 analystes
Data Analyst	Analyses, dashboards, insights	SQL, BI tools, statistiques	Variable par domaine
Data Scientist	ML, predictive, experimentation	Python, ML frameworks, stats avancees	Selon maturite ML
Data Platform Engineer	Infra, CI/CD, observabilite	Terraform, K8s, monitoring	1 pour 6-8 engineers
Data Product Manager	Roadmap data, priorisation	Product thinking, business acumen	1 par domaine

Matrice de Competences (Skill Matrix)

La skill matrix est un outil pour visualiser les forces et lacunes de votre equipe. Elle permet de planifier les recrutements et les formations de maniere strategique :

Skill Matrix - Equipe Data (echelle 1-5)

Competence              | Alice | Bob  | Clara | David | Lacune?
================================================================
SQL avance              |   5   |  4   |   5   |   3   |  Non
Python                  |   4   |  5   |   3   |   4   |  Non
Spark / Big Data        |   3   |  4   |   2   |   1   |  OUI
Cloud (AWS/GCP/Azure)   |   4   |  3   |   4   |   2   |  Non
dbt / Transformation    |   2   |  1   |   5   |   3   |  Non
Streaming (Kafka)       |   1   |  3   |   1   |   2   |  OUI !!
Data Modeling           |   5   |  2   |   4   |   3   |  Non
CI/CD / DevOps          |   2   |  4   |   1   |   5   |  Non
Communication Business  |   3   |  2   |   4   |   1   |  OUI
ML / Data Science       |   1   |  3   |   1   |   2   |  OUI

BUS FACTOR (competence < 2 chez tous sauf 1) : Streaming, ML
ACTION : Recruter un profil Streaming senior, former David en communication

Le Bus Factor

Le "bus factor" mesure le nombre de personnes qui pourraient etre "renversees par un bus" avant que l'equipe perde une competence critique. Si une seule personne maitrise Kafka dans votre equipe, votre bus factor pour le streaming est de 1. C'est un risque majeur. Visez un bus factor d'au moins 2 pour chaque competence critique.

Recruter des Data Engineers et Analysts

Le recrutement data est extremement competitif. Voici un framework structure pour evaluer les candidats :

Questions techniques efficaces

"Decrivez une pipeline que vous avez construite de bout en bout. Quels choix avez-vous faits et pourquoi ?"
"Comment gerez-vous les donnees en retard (late-arriving data) dans un pipeline batch ?"
"Vous avez une table de 10 TB qui ralentit. Comment diagnostiquez-vous et resolvez-vous le probleme ?"
"Quelle est votre strategie de test pour les pipelines data ?"

Red flags en entretien

Ne parle que de technologies, jamais de problemes business resolus
Ne mentionne jamais les tests ou la qualite des donnees
"Je n'ai pas besoin de documentation, mon code est auto-explicatif"
Incapable d'expliquer un concept technique simplement
Blame systematiquement les autres equipes pour les echecs

Team Topologies pour les Equipes Data

Le framework Team Topologies de Matthew Skelton et Manuel Pais definit quatre types d'equipes. Voici comment les appliquer au contexte data :

Team Topologies appliquees aux equipes Data

┌─────────────────────────────────────────────────────────┐
│                 STREAM-ALIGNED TEAMS                     │
│  (Alignees sur un flux de valeur business)               │
│                                                          │
│  ┌──────────────┐  ┌──────────────┐  ┌──────────────┐  │
│  │ Data Team    │  │ Data Team    │  │ Data Team    │  │
│  │ Marketing    │  │ Finance      │  │ Product      │  │
│  │ (2 DE + 1 DA)│  │ (2 DE + 1 DS)│  │ (3 DE + 1 AE)│  │
│  └──────┬───────┘  └──────┬───────┘  └──────┬───────┘  │
│         │                  │                  │          │
│    ┌────▼──────────────────▼──────────────────▼────┐    │
│    │           PLATFORM TEAM                       │    │
│    │    Data Platform (infra, CI/CD, outils)       │    │
│    │    (3 Platform Engineers + 1 SRE)              │    │
│    └────────────────────┬──────────────────────────┘    │
│                         │                                │
│    ┌────────────────────▼──────────────────────────┐    │
│    │          ENABLING TEAM                        │    │
│    │    Data Architecture (standards, mentoring)    │    │
│    │    (1-2 Data Architects)                       │    │
│    └───────────────────────────────────────────────┘    │
│                                                          │
│    ┌───────────────────────────────────────────────┐    │
│    │      COMPLICATED SUBSYSTEM TEAM               │    │
│    │    ML/AI Team (modeles complexes)              │    │
│    │    (2 Data Scientists + 1 ML Engineer)         │    │
│    └───────────────────────────────────────────────┘    │
└─────────────────────────────────────────────────────────┘

Career Ladders pour les Profils Data

Definir des career ladders clairs est essentiel pour retenir les talents. Voici un exemple de progression pour un Data Engineer :

Career Ladder - Data Engineer

Niveau 1 : Junior Data Engineer (0-2 ans)
  - Execute des taches definies par le senior
  - Ecrit des pipelines simples avec supervision
  - Apprend les standards de l'equipe
  - Participe aux code reviews

Niveau 2 : Data Engineer (2-4 ans)
  - Concoit et implemente des pipelines autonome
  - Contribue aux choix techniques de son perimetre
  - Mentorise les juniors
  - Ecrit de la documentation technique

Niveau 3 : Senior Data Engineer (4-7 ans)
  - Lead technique sur des projets complexes
  - Influence les standards de l'equipe
  - Conduit des POCs et evalue de nouvelles technos
  - Interagit directement avec les stakeholders

Niveau 4 : Staff Data Engineer (7-10 ans)
  - Impact cross-equipes
  - Definit des patterns architecturaux reutilisables
  - Mentorise les seniors
  - Contribue a la strategie technique de l'organisation

Niveau 5 : Principal Data Engineer (10+ ans)
  - Vision technique a l'echelle de l'entreprise
  - Influence la roadmap technologique
  - Reconnu en interne et en externe (conferences, publications)
  - Bras droit du CTO sur les sujets data

Programme de Mentoring

Un programme de mentoring structure accelere la montee en competences et ameliore la retention. Voici les elements cles :

Structure d'un Programme de Mentoring Data

Frequence : 1h toutes les 2 semaines, en one-on-one.
Format : Le mentore prepare 2-3 sujets a discuter. Le mentor ecoute d'abord, questionne ensuite, conseille en dernier.
Duree : 6 mois renouvelables.
Mesure : Le mentore definit 3 objectifs en debut de cycle et evalue sa progression a mi-parcours et en fin de cycle.

Spotify : Le modele Squad pour les equipes Data

Spotify a popularise le modele Squad, organise autour de "guildes" et "tribus" :

Squad Data Marketing : 2 Data Engineers + 1 Data Analyst, integres dans la tribu Marketing
Guilde Data Engineering : Tous les Data Engineers de l'entreprise se retrouvent bi-mensuellement pour partager les best practices
Chapter Data : Un Chapter Lead (manager fonctionnel) gere le developpement de carriere des Data Engineers
Resultat : Autonomie des squads + coherence technique via les guildes. Les standards data emergent naturellement plutot que d'etre imposes.

Airbnb : La Data University

Airbnb a cree une "Data University" interne pour demystifier la data pour tous les employes :

Cours SQL pour les Product Managers et designers
Certification interne "Data-Informed" en 3 niveaux
Les Data Engineers mentorisent les PM pendant 4 semaines
Resultat : 45% des employes non-tech ont acquis une certification SQL. Les equipes data passent 30% moins de temps sur les requetes ad hoc.

Anti-Pattern : La Culture du Heros

Un signe toxique dans une equipe data : il y a toujours "cette personne" qui sauve la situation a 3h du matin, qui est la seule a comprendre le pipeline critique, et qui est celebree pour ses heures supplementaires.

Symptome : "Sans Jean-Pierre, tout s'ecroule"
Probleme : Jean-Pierre est un SPOF humain. Quand il part en vacances, tout le monde panique.
Remede : Documentation obligatoire, pair programming, rotation des astreintes, celebration du travail d'equipe et non des heroiques individuels
Regle d'or : Si votre equipe a besoin d'un heros, c'est que vos processus sont casses

Qu'est-ce que le "Bus Factor" et pourquoi est-il important pour une equipe data ?

Le Bus Factor est le nombre minimum de personnes qui devraient quitter l'equipe (ou "etre renversees par un bus") pour qu'une competence critique soit perdue. Un bus factor de 1 signifie qu'une seule personne maitrise cette competence, ce qui est un risque enorme. L'objectif est d'atteindre un bus factor d'au moins 2 pour chaque competence critique, via le pair programming, la documentation, et la formation croisee.

Quels sont les 4 types d'equipes dans le framework Team Topologies ?

1. Stream-aligned : Equipe alignee sur un flux de valeur business (ex: Data Team Marketing).
2. Platform : Equipe qui fournit l'infrastructure et les outils partages (ex: Data Platform Team).
3. Enabling : Equipe qui aide les autres a monter en competences (ex: Data Architecture Team).
4. Complicated Subsystem : Equipe specialisee sur un domaine complexe necessitant une expertise pointue (ex: ML/AI Team).

Quiz : Team Building Data

Quel est le ratio typique recommande entre un Data Architect et les Data Engineers qu'il supporte ?

1 pour 2-3

1 pour 8-12

1 pour 20-30

1 pour 50+

Correct ! Un Data Architect supporte typiquement entre 8 et 12 Data Engineers. En dessous, il n'est pas assez utilise. Au-dessus, il ne peut plus fournir un support de qualite.

Dans le framework Team Topologies, quel type d'equipe fournit l'infrastructure et les outils partages ?

Stream-aligned Team

Enabling Team

Platform Team

Complicated Subsystem Team

Correct ! La Platform Team fournit l'infrastructure, les outils CI/CD, et les services partages. Elle reduit la charge cognitive des Stream-aligned Teams.

Lecon 18 : Architecture Decision Records (ADR)

55 min Intermediaire

Objectifs de la lecon

Comprendre le format et la structure d'un ADR
Maitriser le Lightweight ADR (LADR) pour les decisions rapides
Maintenir un Decision Log structure
Savoir quand ecrire un ADR (et quand ne pas le faire)
Utiliser des templates ADR adaptes au contexte data

Les decisions architecturales sont prises dans un contexte precis. Six mois plus tard, personne ne se souvient pourquoi on a choisi Kafka plutot que Pulsar. Un ADR capture non seulement la decision, mais surtout le "pourquoi" et les alternatives rejetees. C'est la memoire collective de votre equipe.

Qu'est-ce qu'un Architecture Decision Record ?

Un Architecture Decision Record (ADR) est un document court qui capture une decision architecturale significative, son contexte, les alternatives envisagees, et les consequences anticipees. Le concept a ete popularise par Michael Nygard en 2011.

Les 5 composantes d'un ADR

1. Titre : Un titre court et descriptif numerote (ADR-001, ADR-002...)
2. Contexte : Les forces en jeu, le probleme a resoudre, les contraintes
3. Decision : La decision prise, formulee comme un fait accompli ("Nous utiliserons...")
4. Alternatives : Les options rejetees et pourquoi
5. Consequences : Ce qui change suite a cette decision (positif et negatif)

Template ADR Standard pour les Projets Data

Markdown - Template ADR

# ADR-007 : Utiliser Apache Iceberg comme format de table

## Statut
Accepte (2025-03-15)

## Contexte
Notre Data Lakehouse stocke actuellement 45 TB de donnees au format
Parquet brut sur S3. Nous rencontrons les problemes suivants :
- Pas de support ACID pour les mises a jour (MERGE)
- Time-travel impossible pour le debugging
- Schema evolution penible (ajout de colonnes = re-ecriture)
- Pas de partition evolution sans reprocessing complet

L'equipe Analytics demande la capacite de faire des requetes "as-of"
pour les rapports reglementaires. L'equipe Data Engineering passe
20% de son temps sur des workarounds lies a ces limitations.

## Decision
Nous utiliserons Apache Iceberg comme format de table pour le
Data Lakehouse, avec le catalogue Nessie pour la gestion des metadonnees.

## Alternatives considerees

### Delta Lake (Databricks)
- (+) Tres mature, large communaute
- (+) Integration native Spark
- (-) Fort couplage avec l'ecosysteme Databricks
- (-) Historique de licence ambigue (pre-open source)
- (-) Moins performant sur les engines non-Spark (Trino, Flink)

### Apache Hudi
- (+) Bon support pour les upserts en streaming
- (+) Bonne integration avec AWS (EMR, Glue)
- (-) Complexite operationnelle elevee
- (-) Communaute plus petite
- (-) API moins intuitive qu'Iceberg

### Rester en Parquet brut
- (+) Zero effort de migration
- (-) Ne resout aucun des problemes actuels
- (-) La dette technique continuera de croitre

## Consequences

### Positives
- Support ACID natif pour les operations MERGE
- Time-travel pour les rapports "as-of"
- Schema evolution sans re-ecriture des donnees
- Hidden partitioning = moins d'erreurs utilisateur
- Compatible avec Spark, Trino, Flink, Dremio

### Negatives
- Courbe d'apprentissage pour l'equipe (estimee a 3 semaines)
- Migration des tables existantes (estimee a 6 semaines)
- Complexite operationnelle supplementaire (compaction, expiration)
- Dependance a un catalogue (Nessie) a operer

### Neutres
- Les performances de lecture sont similaires a Parquet brut
- Le cout de stockage augmente de ~5% (metadata overhead)

## Participants
- Alice Martin (Data Architect) - Auteur
- Bob Dupont (Senior Data Engineer) - Reviewer
- Clara Petit (Analytics Engineer) - Consultee
- David Roux (CTO) - Approbateur

Lightweight ADR (LADR)

Pour les decisions moins lourdes mais neanmoins importantes, le format LADR est plus concis. Il tient en 10-15 lignes maximum :

Markdown - Lightweight ADR

# LADR-023 : Adopter Ruff comme linter Python

**Statut :** Accepte | **Date :** 2025-04-01 | **Auteur :** Bob Dupont

**Contexte :** Nous utilisons actuellement flake8 + isort + black,
soit 3 outils a configurer et maintenir. Les CI prennent 45s juste
pour le linting.

**Decision :** Remplacer flake8 + isort + black par Ruff, qui combine
les 3 fonctionnalites en un seul outil 10-100x plus rapide.

**Consequences :** CI linting passe de 45s a 2s. Un seul fichier de
configuration (ruff.toml). Migration : 1 jour de travail.

Quand Ecrire un ADR ?

Ecrire un ADR quand...

La decision impacte plusieurs equipes
Elle est difficile ou couteuse a renverser
Elle implique un choix entre plusieurs options viables
Vous savez que quelqu'un demandera "pourquoi on a choisi X ?" dans 6 mois
Elle engage un budget significatif
Elle cree une dependance technologique

Ne PAS ecrire un ADR quand...

La decision est triviale (choix de nom de variable)
Elle est facilement reversible (choix d'une librairie de logging)
Il n'y a pas de veritable alternative (obligation legale)
C'est un detail d'implementation qui ne concerne qu'un seul dev
Elle est temporaire et sera revue dans 2 semaines

Decision Log : Maintenir l'Historique

Un Decision Log est un index de tous les ADRs, permettant de retrouver rapidement une decision passee :

Markdown - Decision Log

# Decision Log - Data Platform

| ID      | Date       | Decision                          | Statut     |
|---------|------------|-----------------------------------|------------|
| ADR-001 | 2024-01-15 | Utiliser AWS comme cloud provider  | Accepte    |
| ADR-002 | 2024-02-01 | Adopter dbt pour les transformations| Accepte   |
| ADR-003 | 2024-03-10 | Format Avro pour les events Kafka  | Accepte    |
| ADR-004 | 2024-04-22 | PostgreSQL pour le metadata store  | Accepte    |
| ADR-005 | 2024-06-01 | Utiliser Airflow 2.x               | Supersede  |
| ADR-006 | 2024-09-15 | Migrer de Airflow vers Dagster     | Accepte    |
| ADR-007 | 2025-03-15 | Apache Iceberg comme format table  | Accepte    |
| LADR-023| 2025-04-01 | Ruff comme linter Python           | Accepte    |
| ADR-008 | 2025-05-20 | Schema Registry Confluent          | En cours   |

Statuts possibles : Propose | En cours | Accepte | Rejete | Supersede | Obsolete

Bonnes pratiques pour le Decision Log

Stockage : Les ADRs doivent vivre dans le repository Git du projet, pas dans Confluence ou Google Docs. Ainsi, ils sont versionnes, reviewes via PR, et proches du code.
Convention : docs/adr/ADR-NNN-titre-court.md
Revue : Chaque ADR passe par une Pull Request avec au minimum 2 reviewers.
Lifecycle : Un ADR n'est jamais modifie apres acceptation. Si une decision change, un nouvel ADR est cree avec le statut "Supersede ADR-XXX".

Uber : Les ADRs a Grande Echelle

Uber gere des milliers de microservices et de pipelines data. Leur approche des ADRs :

Chaque domaine (Marketplace, Rides, Eats) a son propre Decision Log
Les ADRs "cross-domain" sont revus par un Architecture Review Board hebdomadaire
Les ADRs sont indexes dans un moteur de recherche interne
Un bot Slack notifie les equipes concernees quand un ADR est publie
Resultat : Le temps moyen pour comprendre "pourquoi on a choisi X" est passe de 3 jours (questions en Slack) a 15 minutes (lecture de l'ADR)

Spotify : LADR dans les Squads

Spotify utilise le format LADR au niveau des squads pour les decisions locales, et le format ADR complet pour les decisions architecturales qui impactent plusieurs tribus :

Chaque squad maintient un fichier DECISIONS.md dans son repo
Les LADRs sont ecrits en moins de 10 minutes
Revue par le Tech Lead de la squad (pas besoin d'Architecture Board)
Regle : "Si tu passes plus de 30 minutes a ecrire un LADR, c'est probablement un ADR complet"

Anti-Pattern : Pas de Documentation des Decisions

L'absence d'ADRs mene a des situations catastrophiques :

Archeologie du code : "Pourquoi on utilise MongoDB pour ce use case ? Ca n'a aucun sens !" → Parce qu'en 2019, le CTO etait un fan de MongoDB. Il est parti, mais la decision reste.
Decisions zombies : Des choix faits il y a 3 ans pour des raisons qui n'existent plus, mais que personne n'ose changer car "ca a toujours ete comme ca"
Guerres de religions : La meme discussion "Kafka vs RabbitMQ" revient tous les 6 mois car personne ne se souvient de la conclusion precedente
Cout : Une equipe de 10 personnes perd en moyenne 15h par semaine a rediscuter des decisions deja prises quand il n'y a pas d'ADRs

Lab : Ecrire votre Premier ADR

Etape 1 : Identifier une Decision

Pensez a une decision architecturale recente dans votre contexte professionnel ou dans un projet personnel. Exemples : choix d'une base de donnees, choix d'un outil ETL, choix d'un format de donnees.

Etape 2 : Rediger le Contexte

Decrivez le probleme a resoudre en 3-5 phrases. Quelles etaient les forces en jeu ? Les contraintes ? Les besoins des utilisateurs ?

Etape 3 : Lister les Alternatives

Pour chaque alternative, listez au minimum 2 avantages et 2 inconvenients. Soyez objectif, meme pour les options que vous avez rejetees.

Etape 4 : Documenter les Consequences

Separez les consequences en positives, negatives et neutres. Estimez l'impact de chaque consequence (temps, cout, complexite).

Quelle est la difference entre un ADR et un LADR ?

Un ADR (Architecture Decision Record) est un document detaille (1-2 pages) pour les decisions significatives qui impactent plusieurs equipes, avec un contexte complet, des alternatives detaillees et des consequences documentees. Un LADR (Lightweight ADR) est une version concise (10-15 lignes) pour les decisions moins lourdes mais neanmoins importantes, redige en moins de 10 minutes. Regle : si vous passez plus de 30 minutes sur un LADR, c'est probablement un ADR complet.

Pourquoi un ADR ne doit-il jamais etre modifie apres acceptation ?

Un ADR capture une decision prise dans un contexte precis a un moment donne. Le modifier reviendrait a reecrire l'histoire. Si une decision change, un nouvel ADR est cree avec le statut "Supersede ADR-XXX", expliquant pourquoi le contexte a change et pourquoi une nouvelle decision est necessaire. Cela preserve l'historique complet des raisonnements.

Quiz : Architecture Decision Records

Ou doivent etre stockes les ADRs idealement ?

Dans Confluence ou Google Docs

Dans un repository Git, proches du code

Dans un email envoye a toute l'equipe

Dans la memoire du Data Architect

Correct ! Les ADRs doivent vivre dans le repository Git du projet. Ainsi, ils sont versionnes, reviewes via Pull Request, et facilement retrouvables par les developpeurs. Convention : docs/adr/ADR-NNN-titre.md

Que faire quand une decision architecturale documentee dans un ADR doit changer ?

Modifier l'ADR existant avec les nouvelles informations

Supprimer l'ancien ADR

Creer un nouvel ADR avec le statut "Supersede ADR-XXX"

Ne rien faire et communiquer verbalement

Correct ! Un ADR n'est jamais modifie apres acceptation. On cree un nouvel ADR qui "supersede" l'ancien, en expliquant pourquoi le contexte a change. L'historique complet est ainsi preserve.

Lecon 19 : Vendor Management

60 min Avance

Objectifs de la lecon

Maitriser le processus de RFP (Request for Proposal) pour les outils data
Evaluer un POC (Proof of Concept) de maniere rigoureuse
Negocier les contrats avec les fournisseurs data
Attenuer les risques de vendor lock-in
Appliquer le framework "Build vs Buy" pour les decisions technologiques

Chaque outil que vous achetez est un mariage technologique. Certains mariages sont heureux et durent 10 ans. D'autres tournent au cauchemar apres 6 mois. La difference ? La qualite de l'evaluation initiale et les clauses du contrat. Ne laissez jamais un commercial vous vendre un reve sans le tester d'abord.

Le Processus RFP pour les Outils Data

Un RFP (Request for Proposal) est un document formel qui decrit vos besoins et invite les fournisseurs a proposer une solution. Voici le processus complet :

Processus RFP de bout en bout

┌──────────┐   ┌──────────┐   ┌──────────┐   ┌──────────┐   ┌──────────┐
│ Cadrage  │──▶│Redaction │──▶│ Envoi &  │──▶│Evaluation│──▶│ Short-   │
│ besoins  │   │   RFP    │   │ Reponses │   │ reponses │   │  list    │
│ (2 sem)  │   │ (1 sem)  │   │ (3 sem)  │   │ (2 sem)  │   │ (3 max)  │
└──────────┘   └──────────┘   └──────────┘   └──────────┘   └────┬─────┘
                                                                  │
┌──────────┐   ┌──────────┐   ┌──────────┐   ┌──────────┐       │
│ Contrat  │◀──│ Decision │◀──│Scoring & │◀──│  POC     │◀──────┘
│ & Achat  │   │ finale   │   │Comparaison│  │ (4 sem)  │
│          │   │          │   │           │   │          │
└──────────┘   └──────────┘   └──────────┘   └──────────┘

Template - Structure d'un RFP Data Platform

# RFP - Solution de Data Integration

## 1. Presentation de l'entreprise
- Secteur, taille, contexte technologique
- Stack actuelle et ecosysteme

## 2. Contexte et objectifs
- Probleme a resoudre
- Volumes de donnees (actuel et projection a 3 ans)
- SLA requis (latence, disponibilite, throughput)

## 3. Exigences fonctionnelles
- Support des sources : SGBD, API, fichiers, streaming
- Transformation : SQL, Python, visual
- Monitoring et alerting
- Data Quality integre
- Lineage et catalogue

## 4. Exigences non-fonctionnelles
- Performance : X events/sec, latence < Y ms
- Scalabilite : de 100 GB a 10 TB sans re-architecture
- Securite : chiffrement, RBAC, audit logs
- Haute disponibilite : RPO/RTO
- Conformite : RGPD, SOC2

## 5. Exigences d'integration
- Compatibilite avec AWS / Snowflake / dbt
- API REST pour l'automatisation
- Support Terraform / IaC

## 6. Modele de licensing
- Tarification demandee (par utilisateur, par volume, flat)
- Couts caches a declarer (formation, support, migration)

## 7. Criteres d'evaluation et ponderation
- Fonctionnalites : 30%
- Performance : 20%
- Cout total (TCO 3 ans) : 20%
- Facilite d'utilisation : 15%
- Support et communaute : 15%

## 8. Planning
- Date limite de reponse : JJ/MM/AAAA
- Demo : semaine du JJ/MM
- POC : semaines XX-YY
- Decision finale : JJ/MM/AAAA

Evaluer un POC Rigoureusement

Le POC est le moment de verite. 80% des commerciaux vous montreront un demo parfaite. Le POC revele la realite :

Les 5 regles d'or du POC

1. Utilisez VOS donnees : Pas les donnees de demo du fournisseur.
2. Testez VOS use cases : Pas le "happy path" du vendeur.
3. Impliquez VOS utilisateurs : Pas juste l'equipe d'eval technique.
4. Mesurez objectivement : KPIs definis avant le POC, pas apres.
5. Testez les limites : Que se passe-t-il a 10x le volume prevu ? Quand le reseau est lent ? Quand un noeud tombe ?

Grille de Scoring POC (exemple)

Critere                    | Poids | Vendor A | Vendor B | Vendor C
===================================================================
Performance (latence P99)  |  20%  |   8/10   |   9/10   |   6/10
Facilite d'installation    |  10%  |   9/10   |   5/10   |   8/10
Qualite documentation      |  10%  |   7/10   |   9/10   |   5/10
Support pendant le POC     |  10%  |   6/10   |   8/10   |   9/10
Integration stack existante|  15%  |   8/10   |   7/10   |   4/10
Scalabilite testee         |  15%  |   7/10   |   9/10   |   5/10
UX / Developer Experience  |  10%  |   9/10   |   6/10   |   7/10
Cout total (TCO 3 ans)     |  10%  |   7/10   |   5/10   |   9/10
-------------------------------------------------------------------
SCORE PONDERE              | 100%  |  7.65    |  7.40    |  6.30
CLASSEMENT                 |       |   #1     |   #2     |   #3

Negociation de Contrats

Les points cles a negocier dans un contrat avec un fournisseur data :

Point de negociation	Ce que le vendor veut	Ce que vous devez obtenir
Duree du contrat	3 ans minimum, auto-renouvellement	1 an initial avec option de renouvellement
Tarification	Par utilisateur nomme (cher)	Par volume ou flat fee avec seuils clairs
Clause de sortie	Penalites de resiliation elevees	Export des donnees inclus, preavis 90 jours
SLA	99.9% sans penalites	99.95% avec credits automatiques si non atteint
Support	Support email sous 48h	Support prioritaire < 4h pour les incidents critiques
Donnees a la resiliation	"Nous vous fournirons un export"	Export complet dans un format standard sous 30 jours
Augmentation prix	Revision annuelle "au marche"	Cap a +5%/an maximum

Mitigation du Vendor Lock-in

Le vendor lock-in est le risque le plus sous-estime dans les projets data. Voici les strategies pour le mitiger :

Niveaux de Vendor Lock-in

    Risque faible                              Risque eleve
    ◄──────────────────────────────────────────────────►

    ┌───────────┐ ┌───────────┐ ┌───────────┐ ┌───────────┐
    │  Open     │ │  Open     │ │ Managed   │ │Proprietary│
    │  Source   │ │  Source   │ │ Service   │ │   SaaS    │
    │  Self-    │ │  Managed  │ │ (API      │ │ (Custom   │
    │  Hosted   │ │  (ex:     │ │  proprio) │ │  format)  │
    │           │ │  Confluent│ │  ex: AWS   │ │  ex:      │
    │  ex:      │ │  Cloud    │ │  Glue     │ │  Palantir │
    │  Kafka    │ │  pour     │ │           │ │  Foundry  │
    │  on-prem  │ │  Kafka)   │ │           │ │           │
    └───────────┘ └───────────┘ └───────────┘ └───────────┘

    Strategies de mitigation :
    ─────────────────────────
    [1] Abstraction Layer    : Couche d'abstraction entre votre code et le vendor
    [2] Format Standard      : Stocker en Parquet/Iceberg, pas en format proprio
    [3] Multi-cloud Ready    : Terraform + containers = portabilite
    [4] Clause d'export      : Export des donnees garanti contractuellement
    [5] Compétences internes : Ne jamais dependre du vendor pour l'expertise

Anti-Pattern : Le Vendor Lock-in Insidieux

Le lock-in ne vient pas d'un grand choix. Il s'accumule de maniere invisible :

Jour 1 : "On utilise juste l'API de base, on peut partir quand on veut"
Mois 3 : "Cette feature proprietaire est tellement pratique, on l'adopte juste pour ce use case"
Mois 8 : "Notre equipe est certifiee uniquement sur cet outil"
Mois 14 : "On a 200 pipelines qui dependent de cette feature proprietaire"
Mois 18 : Le vendor augmente les prix de 40%. Vous n'avez pas le choix.

Remede : A chaque utilisation d'une feature proprietaire, documentez-la dans un registre de lock-in avec le cout de sortie estime. Revoyez ce registre trimestriellement.

Framework Build vs Buy

La decision "Build vs Buy" est l'une des plus impactantes pour un Data Architect. Voici un framework structure :

Construire (Build) quand...

C'est un avantage competitif (votre algo de recommandation)
Aucun produit ne repond a vos besoins specifiques
Vous avez l'equipe et le temps pour maintenir
La solution doit evoluer tres rapidement
Les donnees sont trop sensibles pour un tiers

Acheter (Buy) quand...

C'est un probleme commun deja resolu (monitoring, BI)
Le time-to-market est critique
Vous n'avez pas l'expertise pour maintenir
Le TCO "build" > TCO "buy" sur 3 ans
Le vendor a une communaute et un support actifs

Framework - Build vs Buy Decision Matrix

Critere                          | Poids | Build | Buy  | Score B | Score $
==========================================================================
Avantage competitif ?             |  25%  |  Si OUI → Build weighted
Produit mature disponible ?       |  20%  |  Si OUI → Buy weighted
Equipe pour maintenir ?           |  15%  |  Si OUI → Build possible
Time-to-market urgent ?           |  15%  |  Si OUI → Buy weighted
TCO 3 ans                        |  15%  |  Calculer les deux
Risque de lock-in                 |  10%  |  Si eleve → Build weighted

EXEMPLE CONCRET : Outil de Data Quality
─────────────────────────────────────────
Avantage competitif ?      → Non (pas differenciateur)         → Buy
Produit mature ?           → Oui (Great Expectations, Soda)    → Buy
Equipe disponible ?        → Non (equipe surchargee)           → Buy
Time-to-market ?           → Urgent (audit en 3 mois)          → Buy
TCO 3 ans Build            → 450K EUR (dev + maintenance)
TCO 3 ans Buy              → 180K EUR (licence + integration)  → Buy
Lock-in ?                  → Faible (formats standards)         → Buy

DECISION : ACHETER (score unanime sur tous les criteres)

Scenario : Role-Play d'Evaluation Vendor

Contexte : Vous evaluez un outil de Data Catalog. Le commercial vous montre une demo impressionnante. Comment reagir ?

Questions a poser :

"Pouvons-nous tester avec nos propres sources de donnees pendant le POC ?"
"Quel est votre taux de retention client ? Combien de clients ont quitte la plateforme l'annee derniere et pourquoi ?"
"Que se passe-t-il si nous decidons de partir ? Quel format d'export est disponible ? Combien de temps faut-il ?"
"Quels sont vos clients dans notre secteur et pouvons-nous avoir une reference ?"
"Comment gerez-vous les augmentations de prix ? Y a-t-il un cap contractuel ?"
"Quelle est votre roadmap produit pour les 12 prochains mois ?"

Red flags : Le commercial evite les questions sur la sortie, refuse de donner des references, ou ne peut pas expliquer le modele de pricing clairement.

Echec : La Migration Impossible

Une entreprise de retail a adopte une plateforme data proprietaire en 2019. Tout allait bien pendant 2 ans :

2019 : Adoption de la plateforme. "C'est magique, tout fonctionne out-of-the-box !"
2020 : 300 pipelines construits avec des connecteurs proprietaires
2021 : Augmentation de prix de 35%. L'equipe commence a evaluer des alternatives.
2022 : Estimation du cout de migration : 18 mois et 2M EUR (vs 300K EUR de licence annuelle)
2023 : L'entreprise reste et paye. Cout cumule du lock-in : 1.2M EUR de surcoats en 3 ans.

Lecon : Ils auraient du, des le jour 1, utiliser des formats standards (Parquet), ecrire une couche d'abstraction, et negocier une clause d'export dans le contrat. Le cout de prevention aurait ete de 50K EUR.

Quelles sont les 5 regles d'or pour un POC reussi ?

1. Utiliser VOS donnees, pas les donnees de demo du vendor. 2. Tester VOS use cases, pas le happy path du vendeur. 3. Impliquer VOS utilisateurs finaux, pas juste l'equipe technique. 4. Definir les KPIs de succes AVANT le POC, pas apres. 5. Tester les limites : stress test a 10x le volume, pannes simulees, latence reseau elevee.

Quiz : Vendor Management

Quelle est la meilleure strategie pour mitiger le vendor lock-in au niveau des donnees ?

Toujours construire en interne

Stocker les donnees dans des formats standards ouverts (Parquet, Iceberg)

Changer de fournisseur tous les 2 ans

Ne jamais utiliser de services cloud

Correct ! Stocker les donnees dans des formats standards ouverts (Parquet, Iceberg, Avro) permet de migrer sans reprocesser les donnees. C'est la premiere ligne de defense contre le vendor lock-in.

Dans un framework Build vs Buy, quand faut-il privilegier le "Build" ?

Quand l'equipe s'ennuie et veut un nouveau projet

Quand c'est un probleme commun deja resolu par le marche

Quand la solution constitue un avantage competitif et qu'aucun produit ne repond aux besoins

Quand le budget est illimite

Correct ! On construit en interne quand la solution constitue un avantage competitif differenciateur et qu'aucun produit du marche ne repond specifiquement aux besoins. Sinon, il vaut mieux acheter.

Lecon 20 : Projet - Data Strategy Roadmap

90 min Avance

Objectifs de la lecon

Realiser un assessment de la maturite data actuelle
Definir une vision data alignee sur la strategie business
Identifier et prioriser les initiatives data sur 3 ans
Definir des KPIs mesurables pour chaque initiative
Construire un budget realiste pour la data strategy

Ce projet est le plus important de la Phase 6. Vous allez creer un document que tout CDO ou CTO devrait avoir : une roadmap data a 3 ans. Ce n'est pas un exercice academique. C'est un document que vous pourrez presenter en entretien ou adapter a votre entreprise actuelle. Prenez le temps de le faire serieusement.

Vue d'Ensemble du Projet

Vous allez creer une Data Strategy Roadmap complete pour une entreprise fictive (ou la votre). Le livrable final comporte 5 parties :

Structure de la Data Strategy Roadmap

┌─────────────────────────────────────────────────────────┐
│               DATA STRATEGY ROADMAP                      │
│                    (3 ans)                                │
│                                                          │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐              │
│  │  PARTIE  │  │  PARTIE  │  │  PARTIE  │              │
│  │    1     │  │    2     │  │    3     │              │
│  │Assessment│  │  Vision  │  │Initiatives│             │
│  │ (As-Is)  │  │ (To-Be)  │  │& Roadmap │              │
│  └────┬─────┘  └────┬─────┘  └────┬─────┘              │
│       │              │              │                    │
│  ┌────▼──────────────▼──────────────▼────┐              │
│  │           PARTIE 4 : KPIs             │              │
│  │    Metriques de succes mesurables      │              │
│  └───────────────────┬───────────────────┘              │
│                      │                                   │
│  ┌───────────────────▼───────────────────┐              │
│  │           PARTIE 5 : Budget           │              │
│  │    Estimation des couts et ROI        │              │
│  └───────────────────────────────────────┘              │
└─────────────────────────────────────────────────────────┘

Partie 1 : Assessment de Maturite (As-Is)

Avant de definir ou aller, il faut savoir ou on en est. Utilisez le modele de maturite suivant pour evaluer chaque dimension :

Grille de Maturite Data (echelle 1-5)

Dimension              | Niveau 1      | Niveau 2     | Niveau 3     | Niveau 4      | Niveau 5
                       | Ad Hoc        | Emergent     | Defini       | Gere          | Optimise
================================================================================================
Gouvernance            | Aucune regle  | Regles       | Politique    | Stewards      | Gouvernance
                       |               | informelles  | documentee   | actifs        | automatisee
-----------------------------------------------------------------------------------------------
Qualite des donnees    | Pas de        | Controles    | Rules        | Monitoring    | ML-powered
                       | controle      | manuels      | automatisees | proactif      | anomaly det.
-----------------------------------------------------------------------------------------------
Architecture           | Silos         | DWH central  | Data Lake    | Lakehouse     | Data Mesh
                       | departementaux| + quelques   | + catalogue  | + gouvernance | federe
                       |               | ETL          |              | unifiee       |
-----------------------------------------------------------------------------------------------
Equipe                 | 0-1 personne  | Petite equipe| Equipe       | Equipe        | Centre
                       | a temps       | centralisee  | structuree   | specialisee   | d'excellence
                       | partiel       |              | avec roles   | multi-profils | data
-----------------------------------------------------------------------------------------------
Culture Data           | Data =        | Quelques     | KPIs data    | Data-informed | Data-driven
                       | afterthought  | champions    | dans les     | decision      | a tous les
                       |               | data         | revues       | making        | niveaux
-----------------------------------------------------------------------------------------------
Self-Service           | Aucun         | Exports      | Dashboards   | Catalogue     | Data
                       |               | CSV manuels  | BI           | + requetes    | marketplace
                       |               |              |              | self-service  |

EXEMPLE D'ASSESSMENT :
Votre entreprise : Gouvernance=2, Qualite=1, Archi=3, Equipe=3, Culture=2, Self-Service=2
Moyenne : 2.2 / 5 → Niveau "Emergent" avec des poches de maturite

Lab : Partie 1 - Votre Assessment

Etape 1 : Evaluation de chaque dimension

Evaluez votre entreprise (ou une entreprise fictive) sur chacune des 6 dimensions. Pour chaque dimension, justifiez votre note en 2-3 phrases. Soyez honnete : surestimer votre maturite mene a des initiatives deconnectees de la realite.

Etape 2 : Identifier les 3 plus gros gaps

Quelles sont les 3 dimensions ou le gap entre le niveau actuel et le niveau cible est le plus grand ? Ces gaps definiront vos priorites strategiques.

Partie 2 : Vision Data (To-Be)

La vision decrit ou vous voulez etre dans 3 ans. Elle doit etre ambitieuse mais realiste, et surtout alignee sur la strategie business de l'entreprise.

Template - Vision Data

# Vision Data 2026-2029

## Mission
Faire de la donnee un actif strategique qui accelere la prise de
decision a tous les niveaux de l'organisation, en garantissant la
qualite, la securite et l'accessibilite des donnees.

## Principes directeurs
1. Data as a Product : chaque dataset a un owner, un SLA, et une doc
2. Self-Service First : 80% des besoins analytiques resolus sans ticket
3. Quality by Design : la qualite est integree dans les pipelines, pas ajoutee apres
4. Cloud-Native : infrastructure elastique, pay-as-you-go
5. Privacy by Default : RGPD et securite sont des prerequis, pas des ajouts

## Etat cible (a 3 ans)
- Gouvernance : Niveau 4 (stewards actifs dans chaque domaine)
- Qualite : Niveau 4 (monitoring proactif, SLA sur les datasets)
- Architecture : Niveau 4 (Lakehouse federe avec gouvernance unifiee)
- Equipe : Niveau 4 (20+ personnes, specialisees par domaine)
- Culture : Niveau 4 (data-informed decision making generalise)
- Self-Service : Niveau 4 (catalogue + requetes self-service)

## Alignement Business
- Objectif business #1 : Croissance revenus de 25% →
  Initiative data : Recommandation ML personnalisee
- Objectif business #2 : Reduction des couts de 15% →
  Initiative data : Optimisation supply chain par analytics
- Objectif business #3 : Compliance reglementaire →
  Initiative data : Lineage et audit automatises

Partie 3 : Initiatives et Roadmap

Les initiatives sont les projets concrets qui vont vous amener de l'etat actuel a l'etat cible. Repartissez-les sur 3 ans :

Roadmap 3 ans - Initiatives Data

ANNEE 1 : FONDATIONS (Build the Base)
======================================
Q1 │ Migration DWH vers Snowflake
   │ Mise en place CI/CD pour les pipelines dbt
   │ Recrutement : +2 Data Engineers, +1 Analytics Engineer
   │
Q2 │ Deploiement Data Catalogue (ex: DataHub)
   │ Definition Data Quality Rules pour les 10 datasets critiques
   │ Formation SQL pour les Product Managers
   │
Q3 │ Mise en place streaming Kafka pour les events temps-reel
   │ Implementation Data Contracts v1
   │ Gouvernance : nomination des Data Stewards par domaine
   │
Q4 │ Self-Service BI : migration Looker → Preset / Superset
   │ Premier Data Quality Dashboard
   │ Bilan annee 1 et ajustement roadmap

ANNEE 2 : ACCELERATION (Scale Up)
==================================
Q1 │ Data Mesh : decoupage en domaines (Marketing, Finance, Product)
   │ Chaque domaine a son Data Product Manager
   │
Q2 │ ML Platform v1 : MLflow + Feature Store
   │ Premier modele ML en production (churn prediction)
   │
Q3 │ Real-time Analytics : dashboards streaming
   │ Data Marketplace interne pour le self-service avance
   │
Q4 │ Reverse ETL : donnees actionnables dans les outils metier
   │ Recrutement : +1 Data Scientist, +1 ML Engineer
   │ Bilan annee 2

ANNEE 3 : EXCELLENCE (Optimize & Innovate)
==========================================
Q1 │ DataOps avance : observabilite E2E, incident response automatise
   │ Data Quality ML-powered (detection d'anomalies automatique)
   │
Q2 │ GenAI : chatbot data interne (Text-to-SQL)
   │ Data Literacy programme pour toute l'entreprise
   │
Q3 │ Advanced Analytics : prescriptive analytics, optimisation
   │ Centre d'Excellence Data formalise
   │
Q4 │ Bilan complet 3 ans
   │ Definition de la vision 2029-2032

Partie 4 : KPIs de Succes

Chaque initiative doit etre mesurable. Voici les KPIs recommandes :

Categorie	KPI	Cible Annee 1	Cible Annee 3
Qualite	Data Quality Score (% de rules qui passent)	75%	95%
Qualite	Nombre d'incidents data / mois	< 10	< 2
Adoption	Utilisateurs actifs self-service / mois	50	300
Adoption	% de decisions basees sur la data (survey)	40%	80%
Performance	Temps moyen pour creer un nouveau rapport	3 jours	2 heures
Performance	Latence P95 des pipelines critiques	< 15 min	< 5 min
Equipe	Retention des talents data	85%	92%
Equipe	Bus factor minimum par competence	2	3
Cout	Cout par TB stocke / mois	Baseline	-30%
Gouvernance	% de datasets avec un owner designe	50%	100%

Partie 5 : Budget et ROI

Estimation Budget Data Strategy (3 ans)

COUTS                              | Annee 1   | Annee 2   | Annee 3   | Total
================================================================================
PERSONNEL
  Data Architect (1)               |   120K    |   125K    |   130K    |   375K
  Data Engineers (3→5→6)           |   270K    |   450K    |   540K    | 1,260K
  Analytics Engineers (1→2→3)      |    90K    |   180K    |   270K    |   540K
  Data Scientist (0→1→2)           |     0K    |   110K    |   220K    |   330K
  Data Product Manager (0→1→2)     |     0K    |   100K    |   200K    |   300K
  ───────────────────────────────────────────────────────────────────────────────
  Sous-total Personnel             |   480K    |   965K    | 1,360K    | 2,805K

INFRASTRUCTURE (Cloud)
  Compute (Snowflake/Spark)        |   120K    |   200K    |   250K    |   570K
  Stockage (S3/GCS)               |    30K    |    50K    |    70K    |   150K
  Streaming (Kafka/Confluent)      |    40K    |    60K    |    80K    |   180K
  ───────────────────────────────────────────────────────────────────────────────
  Sous-total Infrastructure        |   190K    |   310K    |   400K    |   900K

OUTILS & LICENCES
  BI Tool (Preset/Looker)          |    30K    |    45K    |    60K    |   135K
  Data Catalogue (DataHub)         |    15K    |    20K    |    25K    |    60K
  Orchestration (Dagster Cloud)    |    20K    |    30K    |    40K    |    90K
  Monitoring (Monte Carlo)         |    25K    |    35K    |    45K    |   105K
  ───────────────────────────────────────────────────────────────────────────────
  Sous-total Outils                |    90K    |   130K    |   170K    |   390K

FORMATION & CONSEIL
  Formations certifiantes          |    30K    |    25K    |    20K    |    75K
  Consulting externe               |    60K    |    30K    |    15K    |   105K
  ───────────────────────────────────────────────────────────────────────────────
  Sous-total Formation             |    90K    |    55K    |    35K    |   180K

================================================================================
TOTAL                              |   850K    | 1,460K    | 1,965K    | 4,275K

ROI ESTIME
  Revenus additionnels (ML/reco)   |     0K    |   200K    |   800K    | 1,000K
  Economies operationnelles        |    50K    |   200K    |   400K    |   650K
  Reduction risques compliance     |   100K    |   150K    |   200K    |   450K
  ───────────────────────────────────────────────────────────────────────────────
  TOTAL ROI                        |   150K    |   550K    | 1,400K    | 2,100K

  Payback period : ~28 mois
  ROI a 3 ans : 49% ((2,100 - 4,275 + valeur residuelle) / investissement)

Conseil pour le Budget

Un budget data strategy doit toujours inclure une reserve de contingence de 15-20%. Les projets data ont une tendance naturelle a depasser les estimations initiales, notamment sur les couts d'infrastructure cloud et les recrutements (delai pour trouver les bons profils).

Lab : Construire votre Data Strategy Roadmap

Etape 1 : Assessment (30 min)

Completez la grille de maturite pour votre entreprise (ou une entreprise fictive). Justifiez chaque note. Identifiez les 3 plus grands gaps.

Etape 2 : Vision (15 min)

Redigez la mission data, les 5 principes directeurs, et l'etat cible a 3 ans. Alignez avec 3 objectifs business.

Etape 3 : Initiatives (20 min)

Listez 12-16 initiatives reparties sur 3 ans (4 par trimestre en annee 1, en accelerant ensuite). Priorisez par impact business et faisabilite.

Etape 4 : KPIs (10 min)

Definissez 8-10 KPIs mesurables avec des cibles par annee. Chaque KPI doit etre SMART (Specifique, Mesurable, Atteignable, Relevant, Temporel).

Etape 5 : Budget (15 min)

Estimez les couts par categorie et par annee. Calculez le ROI attendu et le payback period. Incluez une reserve de contingence de 20%.

Netflix : Evolution de la Data Strategy

Netflix a parcouru un chemin remarquable en 10 ans :

2014 : Migration du DWH Teradata vers AWS (cout : ~50M USD sur 3 ans)
2016 : Data Platform interne avec Spark, S3, et Presto
2018 : Adoption d'Apache Iceberg (cree en interne)
2020 : Data Mesh partiel : chaque equipe produit possede ses datasets
2023 : ML a grande echelle : personnalisation, encodage video, A/B testing
Investissement data cumule : > 500M USD
ROI estime : La personnalisation ML represente ~1B USD/an de revenus proteges (reduction du churn)

Quelles sont les 5 parties d'une Data Strategy Roadmap complete ?

1. Assessment (As-Is) : Evaluation de la maturite data actuelle sur 6 dimensions.
2. Vision (To-Be) : Mission, principes directeurs, et etat cible a 3 ans aligne sur les objectifs business.
3. Initiatives & Roadmap : Projets concrets priorises et repartis sur 3 ans par trimestre.
4. KPIs : Metriques de succes mesurables avec des cibles par annee (SMART).
5. Budget & ROI : Estimation des couts par categorie, ROI attendu, et payback period.

Quiz : Data Strategy Roadmap

Quelle est la premiere etape d'une Data Strategy Roadmap ?

Definir le budget

Recruter l'equipe

Evaluer la maturite data actuelle (Assessment)

Choisir les technologies

Correct ! L'Assessment est toujours la premiere etape. Avant de definir ou aller, il faut savoir ou on en est. Surestimer sa maturite mene a des initiatives deconnectees de la realite.

Quel pourcentage de reserve de contingence est recommande dans un budget data strategy ?

15-20%

50%

0%, le budget doit etre exact

Correct ! Une reserve de contingence de 15-20% est recommandee. Les projets data ont une tendance naturelle a depasser les estimations, notamment sur l'infrastructure cloud et les recrutements.

Lecon 21 : Examen Final - Phase 6

45 min Evaluation

Objectifs de l'examen

Valider les connaissances acquises sur l'ensemble de la Phase 6
Couvrir les certifications, le portfolio, le leadership et la communication
Evaluer la capacite a appliquer les concepts dans des situations reelles
Obtenir un score minimum de 75% pour valider la phase

Cet examen couvre l'ensemble de la Phase 6 : certifications, portfolio, leadership et communication. Prenez le temps de bien lire chaque question. Les reponses ne sont pas toujours evidentes : certaines questions testent votre jugement autant que vos connaissances. Bonne chance !

Instructions

Cet examen comporte 12 questions couvrant tous les modules de la Phase 6. Pour chaque question, selectionnez la meilleure reponse. Vous devez obtenir un minimum de 9/12 (75%) pour valider la phase.

Conseils pour l'examen

Lisez chaque question attentivement. Certaines reponses semblent correctes mais ne sont pas la meilleure reponse. Privilegiez toujours les reponses qui refletent les bonnes pratiques enseignees dans la phase.

Examen Final Phase 6

Question 1/12 : Quelle certification est recommandee en premier pour un Data Architect qui debute dans les certifications ?

Google Professional Data Engineer

CDMP Associate (DAMA)

Databricks Certified Data Engineer Professional

Confluent Certified Developer

Correct ! La CDMP Associate de DAMA est la certification fondamentale pour un Data Architect. Elle couvre le DMBOK (Data Management Body of Knowledge) qui est le socle theorique de la discipline. Les autres certifications sont plus specialisees et sont recommandees apres la CDMP.

Question 2/12 : Quel est l'element le plus important d'un portfolio de Data Architect ?

Le nombre de technologies listees

Des projets concrets avec des diagrammes d'architecture et les decisions prises

Une longue liste de certifications

Un CV de plus de 5 pages

Correct ! Un portfolio doit montrer des projets concrets avec des diagrammes d'architecture (C4 Model), les decisions prises (ADRs), les trade-offs, et les resultats mesurables. C'est la preuve de votre capacite a resoudre des problemes reels, pas une liste de buzzwords.

Question 3/12 : Dans le C4 Model, quel niveau de diagramme montre les containers (applications, bases de donnees, file systems) ?

Niveau 1 - System Context

Niveau 2 - Container

Niveau 3 - Component

Niveau 4 - Code

Correct ! Le niveau 2 (Container) montre les containers : applications, bases de donnees, file systems, queues de messages. C'est le niveau le plus utile pour un Data Architect car il montre comment les systemes interagissent entre eux.

Question 4/12 : Dans une matrice RACI, que signifie la lettre "C" ?

Controller - Celui qui controle la qualite

Consulted - Celui dont l'avis est sollicite avant la decision

Committed - Celui qui s'engage sur les delais

Coordinator - Celui qui coordonne les equipes

Correct ! C = Consulted. Cette personne est consultee avant la prise de decision. Son avis est pris en compte mais elle n'a pas le pouvoir de decision final (qui revient au "A" - Accountable).

Question 5/12 : Quel est le "Bus Factor" et que faut-il viser ?

Le nombre de bus pour transporter l'equipe ; viser 1 bus

Le nombre de personnes qui peuvent partir sans perdre une competence critique ; viser au moins 2

Le facteur de productivite d'une equipe ; viser 10x

Le ratio manager / ingenieur ; viser 1:5

Correct ! Le Bus Factor mesure le nombre minimum de personnes qui devraient quitter l'equipe pour qu'une competence critique soit perdue. Un bus factor de 1 est dangereux. L'objectif est d'atteindre au moins 2 pour chaque competence critique via le pair programming, la documentation et la formation croisee.

Question 6/12 : Qu'est-ce qu'un ADR (Architecture Decision Record) ne doit JAMAIS faire ?

Documenter les alternatives rejetees

Etre modifie apres acceptation

Etre stocke dans un repository Git

Mentionner les consequences negatives d'une decision

Correct ! Un ADR ne doit jamais etre modifie apres acceptation. Il capture une decision prise dans un contexte precis a un moment donne. Si la decision change, on cree un nouvel ADR avec le statut "Supersede" qui reference l'ancien.

Question 7/12 : Dans le framework Team Topologies, quel type d'equipe aide les autres a monter en competences ?

Stream-aligned Team

Platform Team

Enabling Team

Complicated Subsystem Team

Correct ! L'Enabling Team aide les autres equipes a monter en competences. Dans le contexte data, c'est souvent l'equipe Data Architecture qui joue ce role en definissant les standards, en mentorant les equipes, et en facilitant l'adoption des bonnes pratiques.

Question 8/12 : Quelle est la meilleure strategie pour mitiger le vendor lock-in au niveau des donnees ?

Ne jamais utiliser de solutions SaaS

Changer de fournisseur tous les ans

Stocker les donnees dans des formats standards ouverts et negocier des clauses d'export

Construire absolument tout en interne

Correct ! La combinaison gagnante est : formats standards (Parquet, Iceberg, Avro) + couche d'abstraction + clauses d'export contractuelles. Cela permet de beneficier des avantages d'un vendor tout en gardant la possibilite de migrer.

Question 9/12 : Lors d'un POC (Proof of Concept), quelle est la regle la plus importante ?

Utiliser les donnees de demo fournies par le vendor

Tester uniquement les fonctionnalites mises en avant par le commercial

Utiliser ses propres donnees et tester ses propres use cases

Laisser le vendor gerer le POC de bout en bout

Correct ! La regle numero 1 d'un POC est d'utiliser VOS donnees et VOS use cases. Les donnees de demo du vendor sont optimisees pour briller. La realite de vos donnees (qualite variable, volumes, edge cases) revelera les vraies forces et faiblesses de la solution.

Question 10/12 : Quelle est la premiere etape d'une Data Strategy Roadmap ?

Definir le budget

Choisir les technologies

Evaluer la maturite data actuelle (Assessment)

Recruter un CDO

Correct ! L'Assessment de maturite (As-Is) est toujours la premiere etape. Avant de definir ou aller et comment y aller, il faut avoir un diagnostic honnete de la situation actuelle. Les 6 dimensions a evaluer sont : Gouvernance, Qualite, Architecture, Equipe, Culture, Self-Service.

Question 11/12 : Quel est le Pyramid Principle de Barbara Minto et comment s'applique-t-il a un Data Architect ?

Construire des pyramides de donnees avec les tables les plus larges en bas

Commencer par la conclusion/recommandation, puis detailler les arguments et les donnees

Organiser l'equipe en pyramide hierarchique avec l'architecte au sommet

Augmenter progressivement la complexite technique des presentations

Correct ! Le Pyramid Principle consiste a structurer la communication en commencant par la recommandation (le sommet de la pyramide), puis les arguments cles qui la supportent, puis les donnees detaillees. C'est essentiel pour les presentations executives ou le temps est limite.

Question 12/12 : Dans un framework Build vs Buy, quand faut-il privilegier le "Build" ?

Quand le probleme est commun et deja bien resolu par le marche

Quand le time-to-market est la priorite absolue

Quand la solution constitue un avantage competitif differenciateur

Quand l'equipe n'a pas d'experience avec le domaine

Correct ! On privilegie le Build quand la solution constitue un avantage competitif differenciateur, qu'aucun produit du marche ne repond adequatement aux besoins, et que l'equipe a l'expertise pour construire et maintenir la solution. Pour tout le reste (monitoring, BI, CI/CD...), Buy est generalement preferable.

Recapitulatif Phase 6

Vous avez couvert l'ensemble des competences non-techniques essentielles pour un Data Architect senior :

Certifications : CDMP, cloud, Snowflake, Databricks - votre credibilite professionnelle
Portfolio : Projets concrets, C4 Model, contributions open source - votre vitrine
Stakeholder Management : RACI, Pyramid Principle, influence sans autorite
Team Building : Skill matrix, Team Topologies, career ladders, mentoring
ADR : Documentation des decisions, Decision Log, LADR
Vendor Management : RFP, POC, negociation, Build vs Buy
Data Strategy : Assessment, vision, initiatives, KPIs, budget

Anti-Pattern : Ignorer les Stakeholders

Le piege ultime du Data Architect technique : construire une architecture parfaite que personne n'utilise parce que les stakeholders n'ont jamais ete impliques. Rappelez-vous : 60% des projets data echouent pour des raisons organisationnelles, pas techniques. Votre capacite a communiquer, convaincre et embarquer les gens est aussi importante que votre expertise technique.