Ecosysteme Modern Data Stack - Cours, livres, certifications et outils
Documentation complete de Snowflake : architecture, SQL, fonctions, administration, et bonnes pratiques.
docs.snowflake.com ↗Documentation officielle BigQuery : guides, reference SQL, meilleures pratiques, tarification.
cloud.google.com/bigquery/docs ↗Guides Databricks : Spark, Delta Lake, Unity Catalog, MLflow, SQL Warehouses.
docs.databricks.com ↗Guide complet dbt : installation, modeles, tests, macros, packages, deployment.
docs.getdbt.com ↗Documentation Airflow : concepts, tutoriels, reference API, providers, bonnes pratiques.
airflow.apache.org ↗Guides Dagster : Software-Defined Assets, integrations, deployment, testing.
docs.dagster.io ↗Cours officiel dbt Labs. Apprenez les bases de dbt : modeles, tests, documentation. Prerequis: SQL basique.
dbt Learn ↗Bootcamp complet dbt sur Udemy : du zero au heros. Projet complet avec Snowflake, tests, CI/CD.
Udemy ↗Masterclass Snowflake : architecture, SQL, performance, data sharing, Snowpipe, preparation SnowPro.
Udemy ↗Preparation certification GCP Data Engineer. BigQuery, Dataflow, Pub/Sub, Dataproc, BigLake.
Coursera ↗Par Marc Lamberti (Astronomer). Le meilleur cours Airflow : DAGs, operators, TaskFlow API, production deployment.
Udemy ↗Labs interactifs Snowflake officiels : guides pratiques, tutoriels, badges, preparation certifications.
learn.snowflake.com ↗Cours officiels Databricks : Spark, Delta Lake, Unity Catalog, MLflow. Preparation certifications.
databricks.com/learn ↗Cours avance dbt Labs : incremental models, snapshots, hooks, packages avances.
dbt Learn ↗| Certification | Editeur | Duree | Prix | Difficulte |
|---|---|---|---|---|
| SnowPro Core (COF-C02) | Snowflake | 115 min, 100 questions | $175 | Intermediaire |
| Google Professional Data Engineer | Google Cloud | 120 min, 50-60 questions | $200 | Avance |
| Databricks Data Engineer Associate | Databricks | 90 min, 45 questions | $200 | Intermediaire |
| Databricks Data Engineer Professional | Databricks | 120 min, 60 questions | $300 | Avance |
| dbt Analytics Engineering Certification | dbt Labs | 60 min, 65 questions | $200 | Intermediaire |
Passez la SnowPro Core en premier : c'est la plus demandee sur le marche et la plus accessible. Ensuite, visez la Google Professional Data Engineer ou Databricks Associate selon votre ecosysteme. La certification dbt est un bonus apprecie par les recruteurs.
Par Joe Reis & Matt Housley (O'Reilly, 2022). LE livre de reference pour comprendre tout l'ecosysteme modern data stack. Couvre ingestion, transformation, stockage, serving.
Par James Densmore (O'Reilly, 2021). Guide pratique et concis pour construire des pipelines de donnees fiables et maintenables.
Par Bill Chambers & Matei Zaharia (O'Reilly, 2018). Reference complete pour Apache Spark : DataFrames, Structured Streaming, MLlib.
Par Denny Lee et al. (O'Reilly, 2024). Tout sur Delta Lake : ACID, time travel, optimization, Unity Catalog, Liquid Clustering.
Par Tomer Shiran et al. (O'Reilly, 2024). Reference complete sur Iceberg : architecture, partition evolution, hidden partitioning, multi-engine.
Par Rui Machado & Helder Russa (O'Reilly, 2024). Guide pratique pour les analytics engineers : workflow dbt, tests, CI/CD, deployment.
Plateforme d'integration de donnees open source. 350+ connecteurs pour synchroniser vos sources vers votre warehouse.
docs.airbyte.com ↗Leader du ELT manage. Connecteurs automatises avec CDC integre. Ideal pour les equipes qui ne veulent pas gerer l'infra.
fivetran.com/docs ↗Format de table open pour les data lakes. ACID transactions, time travel, schema evolution, partition evolution.
iceberg.apache.org ↗Orchestrateur Python-native moderne. Alternative a Airflow avec meilleure DX et event-driven workflows.
docs.prefect.io ↗Change Data Capture distribue. Capte les changements de bases de donnees en temps reel via Kafka Connect.
debezium.io ↗Data catalog open source (LinkedIn). Metadata management, data lineage, data discovery pour votre stack.
datahubproject.io ↗Monitoring et observabilite pour dbt. Detecte les anomalies, genere des rapports de qualite, alertes Slack automatiques.
elementary-data.com ↗Outil de BI open source. Dashboards, questions en langage naturel, embedding. Alternative gratuite a Looker/Tableau.
metabase.com ↗Integration dbt + Airflow par Astronomer. Convertit automatiquement les modeles dbt en tasks Airflow avec dependances.
astronomer-cosmos ↗Essai gratuit 30 jours avec $400 de credits. Suffisant pour completer toutes les lecons Snowflake et preparer SnowPro.
signup.snowflake.com ↗BigQuery gratuit sans carte bancaire. 1 TB de requetes/mois et 10 GB de stockage. Ideal pour apprendre.
BigQuery Sandbox ↗Cluster gratuit pour apprendre Spark et Delta Lake. Notebooks interactifs, pas de limite de temps.
community.cloud.databricks.com ↗Environnement sandbox dbt Cloud gratuit pour les cours officiels. Projet pre-configure avec Snowflake.
courses.getdbt.com ↗Deployez Airbyte en local avec Docker. Testez l'ingestion de vos sources PostgreSQL, APIs, fichiers vers votre DWH.
Airbyte Local ↗Cours interactifs gratuits par l'equipe Dagster. Apprenez les Software-Defined Assets, l'integration dbt, et le deploiement.
courses.dagster.io ↗30K+ membres. LA communaute de reference pour dbt et Analytics Engineering. Channels par sujet, aide rapide.
Rejoindre ↗Communaute de data leaders et analytics engineers. Discussions strategiques sur l'organisation data.
locallyoptimistic.com ↗Newsletter hebdomadaire avec les meilleures ressources data engineering, articles, et nouveautes de l'ecosysteme.
dataengineeringweekly.com ↗Ben Rogojan. Excellentes videos sur le data engineering, modern data stack, career advice.
YouTube ↗| Conference | Focus | Format | Quand |
|---|---|---|---|
| dbt Coalesce | Analytics Engineering, dbt | Hybride | Octobre |
| Snowflake Summit | Snowflake, Data Cloud | San Francisco | Juin |
| Databricks Data+AI Summit | Spark, Delta Lake, AI | San Francisco | Juin |
| Data Council | Data Engineering, Architecture | Multi-villes | Mars/Sept |
| Current (Confluent) | Kafka, Streaming | Austin | Septembre |
Semaines 1-6: Choisissez un cloud DWH (Snowflake recommande) et completez la masterclass + labs officiels.
Semaines 7-10: dbt Fundamentals (gratuit) puis le bootcamp Udemy. Construisez un projet dbt complet.
Semaines 11-14: Airflow hands-on guide. Deployez un DAG orchestrant votre pipeline dbt.
Semaines 15-16: Integrez Airbyte et testez les formats de fichiers. Passez la certification SnowPro Core.