Ressources - Phase 4 : Architecture Cloud Data Platform

Documentation, certifications, livres et plan d'etude

1. Documentation Cloud Officielle

Amazon Web Services (AWS)

AWS Well-Architected Framework - Data Analytics Lens

Guide de bonnes pratiques pour les architectures data sur AWS. Couvre les piliers : excellence operationnelle, securite, fiabilite, performance et optimisation des couts.

AWSOfficiel docs.aws.amazon.com/wellarchitected

AWS Lake Formation - Developer Guide

Documentation complete pour configurer et gerer un Data Lake securise avec Lake Formation. Inclut la gestion des permissions, le catalogage et la gouvernance.

AWSPratique docs.aws.amazon.com/lake-formation

AWS Architecture Center - Analytics

Architectures de reference pour les solutions analytiques : streaming, batch, lakehouse, data mesh sur AWS.

AWSArchitecture aws.amazon.com/architecture/analytics

Google Cloud Platform (GCP)

Google Cloud Architecture Framework - Data

Framework d'architecture couvrant la conception de systemes data sur GCP. Inclut les patterns de Data Warehouse, Data Lake et traitement en streaming.

GCPOfficiel cloud.google.com/architecture/framework

BigQuery Documentation et Bonnes Pratiques

Guide complet de BigQuery : optimisation des requetes, partitionnement, clustering, materialized views, BI Engine et controle des couts.

GCPPratique cloud.google.com/bigquery/docs

Data Analytics Solutions sur GCP

Collection de solutions architecturales preconstruites pour les cas d'usage analytiques courants, de l'IoT au machine learning.

GCPArchitecture cloud.google.com/solutions/data-analytics

Microsoft Azure

Azure Architecture Center - Data

Architectures de reference pour les donnees sur Azure : Modern Data Warehouse, Lambda/Kappa architecture, streaming analytics.

AzureOfficiel learn.microsoft.com/azure/architecture/data-guide

Microsoft Fabric Documentation

Documentation de la plateforme analytique unifiee Fabric : OneLake, Data Factory, Synapse Data Engineering, Power BI integre.

AzurePratique learn.microsoft.com/fabric

Azure Well-Architected Framework - Data

Guide de conception pour les workloads data : fiabilite, securite, optimisation des couts et excellence operationnelle sur Azure.

AzureArchitecture learn.microsoft.com/azure/well-architected

2. Certifications Recommandees

CertificationOrganismeDifficulteDuree Prep.Pertinence
TOGAF 10 CertifiedThe Open GroupIntermediate4-6 semainesArchitecture d'entreprise, frameworks, gouvernance
AWS Certified Data Engineer - AssociateAmazon Web ServicesAssociate6-8 semainesData pipelines, ingestion, transformation sur AWS
Google Cloud Professional Data EngineerGoogle CloudProfessional8-10 semainesArchitecture data sur GCP, BigQuery, Dataflow, ML
Azure Data Engineer Associate (DP-203)MicrosoftAssociate6-8 semainesSynapse, Data Factory, Databricks sur Azure
Databricks Data Engineer AssociateDatabricksAssociate4-6 semainesLakehouse, Delta Lake, Spark, Unity Catalog
Snowflake SnowPro CoreSnowflakeFoundation3-4 semainesArchitecture Snowflake, performance, securite
CDMP (Certified Data Management Professional)DAMA InternationalVariable8-12 semainesGouvernance, qualite, architecture globale
FinOps Certified PractitionerFinOps FoundationFoundation2-3 semainesOptimisation des couts cloud
Parcours recommande pour cette phase : Commencez par TOGAF 10 pour les fondements d'architecture, puis passez la certification cloud de votre plateforme principale (AWS, GCP ou Azure). Ajoutez Databricks ou Snowflake selon votre ecosysteme.

Details des Certifications Cles

TOGAF 10 Certified

Format : 2 examens (Foundation + Certified)

Contenu : ADM, Architecture Content Framework, Enterprise Continuum, Architecture Capability

Cout : ~500-700 EUR (les 2 examens)

Validite : Permanente (pas de renouvellement)

Architecture

AWS Data Engineer Associate

Format : 85 questions, 170 minutes

Contenu : Ingestion (Kinesis, Glue), Transformation (EMR, Glue ETL), Serving (Redshift, Athena), Securite et Gouvernance

Cout : 150 USD

Validite : 3 ans

AWS

GCP Professional Data Engineer

Format : 50-60 questions, 120 minutes

Contenu : Design de systemes data, pipelines ML, BigQuery, Dataflow, Pub/Sub, securite et compliance

Cout : 200 USD

Validite : 2 ans

GCP

FinOps Certified Practitioner

Format : 50 questions, 60 minutes

Contenu : Principes FinOps, Inform/Optimize/Operate, showback/chargeback, unit economics

Cout : 300 USD (inclut formation)

Validite : 2 ans

FinOps

3. Livres Recommandes

Deciphering Data Architectures - James Serra (2024)

Comparaison detaillee des architectures Data Warehouse, Data Lake, Data Lakehouse et Data Mesh. Excellent pour comprendre quand utiliser chaque approche et comment les combiner.

EssentielArchitecture O'Reilly Media - ~350 pages

The Data Warehouse Toolkit - Ralph Kimball (3rd Edition)

La reference absolue pour la modelisation dimensionnelle. Indispensable meme dans un contexte Lakehouse car les principes de modelisation restent fondamentaux.

EssentielClassique Wiley - ~600 pages

Fundamentals of Data Engineering - Joe Reis & Matt Housley (2022)

Vue d'ensemble du Data Engineering moderne : ingestion, transformation, serving, orchestration, securite. Excellent complement pour comprendre l'ecosysteme complet.

EssentielModerne O'Reilly Media - ~450 pages

Data Management at Scale - Piethein Strengholt (2nd Edition, 2023)

Architecture data a l'echelle de l'entreprise : patterns d'integration, data mesh, gouvernance federee, APIs de donnees. Tres pertinent pour les grandes organisations.

ArchitectureAvance O'Reilly Media - ~400 pages

Cloud Native Data Center Networking - Dinesh Dutt (2024)

Comprendre le reseau dans les architectures cloud : VPC, peering, private link, hybride. Important pour la securite et la performance des data platforms.

Infrastructure O'Reilly Media - ~350 pages

Designing Data-Intensive Applications - Martin Kleppmann

Le livre fondamental sur les systemes distribues, la replication, le partitionnement, les transactions. Essentiel pour comprendre les compromis architecturaux.

EssentielClassique O'Reilly Media - ~550 pages

TOGAF Standard, Version 10 - The Open Group

Documentation officielle de TOGAF 10 : ADM, Architecture Content Framework, meilleures pratiques. Necessaire pour la certification et la pratique de l'architecture d'entreprise.

ArchitectureReference The Open Group - Guide officiel

Cloud FinOps - J.R. Storment & Mike Fuller (2nd Edition, 2023)

Le guide de reference pour la gestion des couts cloud. Couvre les principes FinOps, les pratiques organisationnelles, les outils et les metriques. Indispensable pour maitriser les budgets data.

FinOpsEssentiel O'Reilly Media - ~300 pages

4. Plan d'Etude - Phase 4 (12 semaines)

Semaines 1-2 : Fondamentaux de l'Architecture Data

Objectifs : Comprendre les patterns architecturaux (Warehouse, Lake, Lakehouse), les open table formats (Iceberg, Delta, Hudi), et le concept de Medallion Architecture.

Actions : Lire les chapitres 1-3 de "Deciphering Data Architectures". Completer les lecons 1-2 du Module 4.1. Installer un environnement local avec MinIO + Iceberg + Spark.

Module 4.1 Lecons 1-2

Semaines 3-4 : Plateformes Cloud AWS et GCP

Objectifs : Maitriser les services data des deux premiers cloud providers. Comprendre les architectures de reference et les cas d'usage.

Actions : Completer les lecons 3-4 du Module 4.1. Creer un free tier AWS et un projet GCP. Deployer un pipeline simple sur chaque plateforme (S3+Glue+Athena, GCS+Dataflow+BigQuery).

Module 4.1 Lecons 3-4

Semaines 5-6 : Azure, TOGAF et Securite

Objectifs : Decouvrir Azure et Microsoft Fabric. Apprendre TOGAF ADM pour les architectes data. Maitriser les couches de securite data.

Actions : Completer les lecons 5-8 du Module 4.1. Commencer la lecture de "TOGAF Standard v10". Creer les premiers artefacts TOGAF pour un projet fictif. Passer le Quiz Architecture.

Module 4.1 Lecons 5-9

Semaines 7-8 : Data Contracts et Schemas

Objectifs : Maitriser les data contracts, la validation de schemas et la couche semantique.

Actions : Completer les lecons 10-12 du Module 4.2. Rediger un data contract complet pour un dataset reel. Implementer une validation avec Soda ou Great Expectations. Configurer un semantic layer basique avec dbt.

Module 4.2 Lecons 10-12

Semaines 9-10 : APIs et Virtualisation

Objectifs : Comprendre les patterns d'acces aux donnees : REST, GraphQL, gRPC. Decouvrir la data virtualization.

Actions : Completer les lecons 13-15 du Module 4.2. Creer une API REST simple exposant des donnees. Experimenter avec Hasura ou Denodo (version gratuite) pour la virtualisation. Passer le Quiz Data Contracts.

Module 4.2 Lecons 13-15

Semaine 11 : FinOps et Optimisation des Couts

Objectifs : Appliquer les principes FinOps aux plateformes data. Savoir estimer et optimiser les couts.

Actions : Completer les lecons 16-18 du Module 4.3. Utiliser les calculateurs de prix AWS/GCP/Azure pour estimer les couts d'une architecture. Creer un dashboard de suivi des couts.

Module 4.3 Lecons 16-18

Semaine 12 : Projet Final et Examen

Objectifs : Synthetiser tous les apprentissages en designant une data platform complete. Valider les acquis avec l'examen final.

Actions : Completer le Projet (lecon 19) : designer une data platform de bout en bout incluant ingestion, stockage, traitement, serving, securite, contracts et estimation des couts. Passer l'Examen Final Phase 4.

Projet FinalModule 4.3 Lecons 19-20

Conseil de planification : Prevoyez 8 a 10 heures par semaine pour cette phase. Repartissez le temps entre theorie (30%), pratique hands-on (50%) et revision (20%). Tenez un journal d'architecture pour documenter vos decisions et compromis sur chaque exercice pratique.

5. Outils et Plateformes Pratiques

Outils Open Source

DataContract CLI

Outil en ligne de commande pour valider, tester et documenter les data contracts au format YAML. Supporte la detection de breaking changes et la generation de documentation.

Open SourceData Contracts github.com/datacontract/datacontract-cli

Trino (ex-PrestoSQL)

Moteur de requetes distribue pour la federation multi-sources. Supporte +30 connecteurs (PostgreSQL, MongoDB, S3/Iceberg, Elasticsearch, Kafka, etc.).

Open SourceVirtualization trino.io

Cube.dev

Semantic layer API-first avec cache de pre-aggregation integre. Expose les metriques via REST, GraphQL et SQL. Ideal pour les applications data.

Open SourceSemantic Layer cube.dev

Dremio

Plateforme de lakehouse ouverte avec data virtualization, reflections (cache automatique), et support natif Apache Iceberg. Edition Community gratuite.

Open SourceLakehouse dremio.com

Plateformes de Pratique

AWS Free Tier

S3 (5 Go), Glue (1M objets catalogue), Athena (premiers 1 To/mois gratuits). Ideal pour tester une architecture AWS data complete.

AWSGratuit

GCP BigQuery Sandbox

10 Go de stockage + 1 To de requetes/mois gratuitement. Pas besoin de carte bancaire. Parfait pour pratiquer BigQuery et GCS.

GCPGratuit

Azure Free Account

$200 de credits pour 30 jours + services gratuits pendant 12 mois. Inclut ADLS, Synapse Serverless, et Cosmos DB.

AzureGratuit

Databricks Community Edition

Cluster Spark gratuit (1 noeud), notebooks interactifs, Delta Lake. Ideal pour pratiquer Spark, Delta et les lakehouse patterns.

LakehouseGratuit

Snowflake Free Trial

$400 de credits pendant 30 jours (tous les clouds). Suffisant pour tester warehouses, Iceberg tables, data sharing et gouvernance.

DWH30 jours

TOGAF Online Learning

The Open Group propose des ressources d'apprentissage et des examens blancs pour preparer la certification TOGAF 10.

ArchitectureCertification

6. Cours en Ligne Recommandes

Data Architecture on AWS - AWS Skill Builder

Parcours officiel AWS couvrant S3, Glue, Athena, Redshift, Lake Formation. Inclut des labs pratiques sur la console AWS.

AWSOfficiel explore.skillbuilder.aws

Data Engineering on Google Cloud - Coursera

Specialisation de 5 cours par Google Cloud couvrant BigQuery, Dataflow, Pub/Sub, Cloud Composer. Preparation a la certification GCP PDE.

GCPCoursera coursera.org/professional-certificates/gcp-data-engineering

DP-203 Azure Data Engineering - Microsoft Learn

Parcours gratuit Microsoft couvrant Synapse, Data Factory, ADLS, Databricks sur Azure. Labs interactifs inclus.

AzureGratuit learn.microsoft.com

FinOps Certified Practitioner - FinOps Foundation

Formation et certification officielle FinOps. Couvre les principes Inform/Optimize/Operate, showback/chargeback, et unit economics.

FinOpsCertification learn.finops.org