Ressources Phase 1 : Fondamentaux Data

Cours, livres, outils, certifications et plan d'etude pour maitriser SQL avance, NoSQL et Python pour la data.

1 Cours en Ligne

Gratuit ★★★★★

PostgreSQL Documentation Officielle

La reference absolue pour PostgreSQL. Documentation exhaustive couvrant toutes les fonctionnalites, de l'installation aux fonctions avancees. Indispensable pour tout Data Architect.

postgresql.org/docs →
Certificat ★★★★☆

Coursera - SQL for Data Science

Cours de l'Universite UC Davis. Couvre les bases puis avance vers les window functions, CTEs, et l'optimisation. Projet final avec analyse de donnees reelles. Duree : 4 semaines.

coursera.org/learn/sql-for-data-science →
★★★★★

DataCamp - SQL Avance

Parcours interactif avec exercices pratiques dans le navigateur. Excellente progression pedagogique couvrant les window functions, les CTEs recursives, le query tuning et le partitionnement.

datacamp.com/tracks/sql-fundamentals →
Gratuit Certificat ★★★★★

MongoDB University

Cours officiels MongoDB gratuits. Le parcours "MongoDB for Developers" couvre le CRUD, l'aggregation pipeline, l'indexation et la modelisation de documents. Preparation a la certification.

university.mongodb.com →
Gratuit Certificat ★★★★☆

Redis University

Formation officielle Redis gratuite. Couvre les structures de donnees, les patterns de caching, les streams, et Redis Stack. Inclut des labs pratiques et une certification.

university.redis.com →
Gratuit ★★★★☆

Neo4j GraphAcademy

Cours gratuits sur Neo4j et le langage Cypher. Excellente introduction aux bases de donnees graphes avec des exercices interactifs et des cas d'usage reels (fraude, recommandation).

graphacademy.neo4j.com →
★★★★★

Udemy - The Complete SQL Bootcamp

Par Jose Portilla. Cours tres populaire qui couvre PostgreSQL de A a Z. Excellent pour consolider les bases avant d'attaquer le SQL avance. Plus de 200 exercices pratiques.

udemy.com/the-complete-sql-bootcamp →
Gratuit ★★★★★

Apache Spark Documentation

Documentation officielle de PySpark. Reference complete pour les DataFrames, le SQL, le Structured Streaming et MLlib. Inclut des guides de migration et des exemples detailles.

spark.apache.org →
Gratuit ★★★★★

DuckDB Documentation Officielle

Documentation complete du moteur OLAP in-process. Guides d'installation, syntaxe SQL, integration Python/R, lecture directe de Parquet/CSV. Exemples clairs et progressifs pour chaque fonctionnalite.

duckdb.org/docs →
Gratuit ★★★★★

Polars User Guide

Guide officiel de Polars, le DataFrame haute performance en Rust. Couvre les expressions, le mode Lazy, les window functions, et les comparaisons avec pandas. Indispensable pour les gros volumes de donnees.

docs.pola.rs →
Gratuit Certificat ★★★★☆

Elastic Training - Free Courses

Formations gratuites Elasticsearch par Elastic. Couvre l'indexation, la recherche full-text, les aggregations, et le stack ELK (Elasticsearch, Logstash, Kibana). Preparation aux certifications Elastic.

elastic.co/training →
Gratuit ★★★★☆

TimescaleDB Documentation

Documentation officielle de TimescaleDB, l'extension PostgreSQL pour les time series. Couvre les hypertables, les continuous aggregates, la compression, et les fonctions d'analyse temporelle.

docs.timescale.com →

2 Livres Essentiels

Livre ★★★★★

Designing Data-Intensive Applications

Martin Kleppmann - O'Reilly, 2017. LA bible du Data Architect. Couvre en profondeur les fondamentaux des systemes de donnees : stockage, replication, partitionnement, transactions, batch et stream processing. Lecture obligatoire.

dataintensive.net →
Livre ★★★★★

The Art of PostgreSQL

Dimitri Fontaine - 2nd Edition, 2022. Guide avance PostgreSQL oriente pratique. Couvre le SQL avance, les extensions, le tuning, les types de donnees, et les design patterns. Ideal pour cette phase.

theartofpostgresql.com →
Livre ★★★★☆

SQL Performance Explained

Markus Winand - 2012. Tout ce qu'il faut savoir sur l'optimisation SQL et les index. Explique brillamment le fonctionnement des B-trees, des plans d'execution et des strategies d'indexation. Version web gratuite disponible.

use-the-index-luke.com →
Livre ★★★★☆

NoSQL Distilled

Pramod Sadalage & Martin Fowler - Addison-Wesley, 2013. Introduction concise et claire au monde NoSQL. Couvre les 4 types de bases NoSQL, le theoreme CAP, la consistance eventuelle, et les patterns de modelisation.

martinfowler.com →
Livre ★★★★☆

Python for Data Analysis

Wes McKinney - O'Reilly, 3rd Edition, 2022. Par le createur de pandas. Reference complete pour le traitement de donnees avec Python, NumPy et pandas. Couvre la manipulation, le nettoyage et la visualisation de donnees.

wesmckinney.com/book →
Livre ★★★★★

Learning Spark, 2nd Edition

Damji, Wenig, Das, Lee - O'Reilly, 2020. Guide complet pour Apache Spark avec PySpark. Couvre les DataFrames, Spark SQL, le Structured Streaming, MLlib et Delta Lake. Ideal pour les Data Engineers.

oreilly.com →

3 Outils et Plateformes

Outil Gratuit

pgAdmin 4

Interface graphique officielle pour PostgreSQL. Permet de gerer les bases, executer des requetes, visualiser les plans d'execution, monitorer les performances et administrer les utilisateurs. Indispensable pour les labs SQL.

pgadmin.org →
Outil Gratuit

DBeaver Community

Client SQL universel supportant plus de 80 bases de donnees (PostgreSQL, MySQL, Oracle, SQL Server, MongoDB, Cassandra...). Interface riche avec editeur SQL, explorateur de donnees et diagrammes ER.

dbeaver.io →
Outil Gratuit

MongoDB Compass

Interface graphique officielle pour MongoDB. Permet d'explorer les collections, de construire des pipelines d'aggregation visuellement, d'analyser les schemas et de gerer les index.

mongodb.com/compass →
Outil Gratuit

RedisInsight

GUI officielle pour Redis. Permet de visualiser les cles, monitorer la memoire, debugger les commandes en temps reel, et explorer les modules Redis Stack (Search, JSON, TimeSeries).

redis.com/redis-insight →
Outil Gratuit

Neo4j Desktop

Environnement de developpement complet pour Neo4j. Inclut le Neo4j Browser pour executer des requetes Cypher, visualiser les graphes, et le Bloom pour l'exploration interactive.

neo4j.com/download →
Outil Gratuit

Docker Desktop

Essentiel pour lancer rapidement des instances de bases de donnees en local. Un simple docker-compose.yml peut demarrer PostgreSQL, MongoDB, Redis, Cassandra et Neo4j simultanement.

docker.com/docker-desktop →
Outil Gratuit

Jupyter Notebook / JupyterLab

Environnement interactif pour Python. Ideal pour les labs pandas, SQLAlchemy et PySpark. Permet de combiner code, visualisations et notes dans un meme document executable.

jupyter.org →
Outil Gratuit

VS Code + Extensions SQL

Visual Studio Code avec les extensions SQLTools, Python, et PostgreSQL. Un environnement de developpement polyvalent qui combine editeur SQL, terminal Python et gestion Git en un seul outil.

code.visualstudio.com →
Outil Gratuit

DuckDB CLI & Python

Moteur OLAP in-process ultra-rapide. Installez avec pip install duckdb. Requetez directement des fichiers Parquet/CSV en SQL sans serveur. Ideal pour l'exploration de donnees et le prototypage.

duckdb.org →
Outil Gratuit

Polars (DataFrame Rust)

Alternative haute performance a pandas, ecrite en Rust. 5-20x plus rapide, multi-threade nativement, mode Lazy pour l'optimisation. Installez avec pip install polars.

pola.rs →
Outil Gratuit

Elasticsearch + Kibana

Moteur de recherche full-text distribue. Kibana fournit l'interface de visualisation et le Dev Tools console. Lancez les deux via Docker pour les labs de recherche et d'analyse de logs.

elastic.co/downloads →
Outil Gratuit

Pandera - Data Validation

Framework de validation de donnees pour DataFrames pandas et Polars. Definissez des schemas declaratifs pour garantir la qualite des donnees en entree de vos pipelines ETL. pip install pandera.

pandera.readthedocs.io →

Plateformes de Pratique (Gratuites)

Gratuit Pratique ★★★★★

pgExercises

Exercices interactifs PostgreSQL dans le navigateur. Base de donnees d'un club sportif avec des exercices progressifs : joins, subqueries, aggregations, window functions, recursive CTEs. Parfait pour cette formation.

pgexercises.com →
Gratuit Pratique ★★★★★

SQLBolt

Tutoriel SQL interactif avec editeur integre. 20 lecons progressives des bases aux jointures et sous-requetes. Ideal pour reviser les fondamentaux avant d'attaquer le SQL avance.

sqlbolt.com →
Gratuit Pratique ★★★★☆

HackerRank - SQL

Challenges SQL classes par difficulte (Easy, Medium, Hard). Couvre : SELECT, jointures, aggregations, sous-requetes avancees. Systeme de classement et badges pour la motivation.

hackerrank.com/sql →
Gratuit Pratique ★★★★☆

LeetCode - Database

Plus de 200 problemes SQL classes par difficulte. Les questions "Medium" et "Hard" couvrent des cas reels d'entretien (window functions, CTEs recursives, optimisation). Populaire pour les entretiens techniques.

leetcode.com/database →
Gratuit Pratique ★★★★★

Exercism - Python Track

Exercices Python avec mentorat gratuit. 140+ exercices progressifs avec tests automatiques et revue de code par des mentors benevoles. Ideal pour renforcer les bases Python avant pandas/Polars.

exercism.org/python →
Gratuit Pratique ★★★★☆

Mode SQL Tutorial

Tutoriel SQL avance avec un editeur connecte a une vraie base de donnees. Focus sur l'analytique : window functions, subqueries, performance. Donnees reelles issues du monde de la tech.

mode.com/sql-tutorial →

4 Certifications Professionnelles

Certification Organisme Niveau Prix Duree Prep. Pertinence
Oracle Database SQL Certified Associate Oracle Associate ~245 USD 4-6 semaines Valide les competences SQL fondamentales, reconnue internationalement dans les grandes entreprises
EDB PostgreSQL Associate Certification EnterpriseDB Associate ~200 USD 3-4 semaines Certification officielle PostgreSQL. Couvre l'administration, le SQL avance et les performances
MongoDB Associate Developer MongoDB Associate ~150 USD 3-4 semaines Valide les competences CRUD, aggregation, indexation et modelisation MongoDB
MongoDB Associate DBA MongoDB Associate ~150 USD 4-5 semaines Oriente administration : replication, sharding, securite, sauvegarde et monitoring
Redis Certified Developer Redis Developer ~150 USD 2-3 semaines Structures de donnees, patterns de caching, Pub/Sub et Redis Stack
Neo4j Certified Professional Neo4j Professional Gratuit 2-3 semaines Certification gratuite couvrant Cypher, modelisation graphe et administration Neo4j
Databricks Spark Developer Associate Databricks Associate ~200 USD 4-6 semaines PySpark DataFrames, Spark SQL, Delta Lake. Tres valorisee sur le marche data
Elastic Certified Engineer Elastic Engineer ~400 USD 6-8 semaines Indexation, recherche, aggregations, cluster management. Tres demandee pour les architectures de recherche
Conseil : Commencez par la certification Neo4j (gratuite) pour vous familiariser avec le format d'examen, puis visez la certification PostgreSQL et MongoDB pour maximiser votre employabilite.

5 Plan d'Etude - 16 Semaines

Rythme recommande : 10-12h par semaine. Adaptez selon votre disponibilite. Chaque semaine combine theorie, pratique et revision.

Semaine 1

SQL Avance - Introduction et Window Functions (partie 1)

  • Revoir les bases SQL (SELECT, JOIN, GROUP BY, HAVING)
  • Decouvrir les Window Functions : ROW_NUMBER, RANK, DENSE_RANK
  • Pratiquer sur pgAdmin avec la base de donnees exemple fournie
  • Lire : Chapitres 1-2 de "The Art of PostgreSQL"
Semaine 2

SQL Avance - Window Functions (partie 2) et CTEs

  • LAG, LEAD, NTILE, SUM OVER, AVG OVER avec frames
  • CTEs simples et multiples
  • CTEs recursives pour les hierarchies
  • Lab : Analyse des ventes e-commerce
Semaine 3

SQL Avance - Sous-requetes et Pivot

  • Sous-requetes correlees avec EXISTS et IN
  • PIVOT, UNPIVOT, GROUPING SETS, ROLLUP, CUBE
  • Comparaison des performances entre les approches
  • Exercices pratiques avec des jeux de donnees reels
Semaine 4

SQL Avance - Plans d'Execution et Indexation

  • EXPLAIN ANALYZE : lire et interpreter les plans
  • Types d'index : B-tree, Hash, GIN, GiST, BRIN
  • Lab : Optimiser une requete lente (5s vers 50ms)
  • Lire : "SQL Performance Explained" (chapitres 1-3)
Semaine 5

SQL Avance - Partitionnement et Architecture

  • Partitionnement : Range, List, Hash
  • Materialized Views et strategies de rafraichissement
  • Architecture interne PostgreSQL : WAL, MVCC, processus
  • Connection pooling avec PgBouncer
Semaine 6

SQL Avance - Revision et Quiz

  • Revision de tous les concepts SQL avances
  • Passer le quiz SQL avance (15 questions)
  • Refaire les labs les plus difficiles
  • Preparation optionnelle : certification Oracle SQL
Semaine 7

NoSQL - Theoreme CAP et MongoDB (partie 1)

  • Theoreme CAP et PACELC : comprendre les compromis
  • Quand choisir SQL vs NoSQL : criteres de decision
  • MongoDB : concepts fondamentaux (documents, collections)
  • CRUD operations et premiers aggregation pipelines
Semaine 8

NoSQL - MongoDB (partie 2) et Redis

  • MongoDB : modelisation avancee (embedding vs referencing)
  • MongoDB : indexation et sharding
  • Redis : structures de donnees et patterns de caching
  • Lab : Implementer un cache avec TTL
Semaine 9

NoSQL - Cassandra et Neo4j

  • Cassandra : architecture en anneau, CQL, consistance
  • Modelisation orientee requete en Cassandra
  • Neo4j : model Property Graph, Cypher
  • Lab : Detection de fraude avec un graphe
Semaine 10

NoSQL - Elasticsearch, TimescaleDB, NewSQL et Revision

  • Elasticsearch : index inverse, recherche full-text, aggregations
  • TimescaleDB : hypertables, time_bucket(), continuous aggregates
  • NewSQL : CockroachDB, TiDB, YugabyteDB
  • Guide de decision : quelle base pour quel besoin
  • Passer le quiz NoSQL (12 questions)
Semaine 11

Python Data - Ecosysteme, pandas et DuckDB

  • Tour d'horizon de l'ecosysteme Python Data
  • pandas : DataFrames, Series, lecture de donnees
  • pandas avance : groupby, merge, pivot_table, apply
  • DuckDB : SQL sur fichiers Parquet/CSV, integration pandas
  • Lab : Analyse d'un dataset client avec pandas + DuckDB
Semaine 12

Python Data - Polars et SQLAlchemy

  • Polars : Expressions, mode Lazy, window functions
  • Benchmark pandas vs Polars vs DuckDB sur 1Go de donnees
  • SQLAlchemy Core : Engine, Connection, text()
  • SQLAlchemy ORM : modeles, sessions, requetes
  • Lab : Pipeline d'extraction avec Polars + SQLAlchemy
Semaine 13

Python Data - PySpark Fondamentaux

  • Architecture Spark : Driver, Executors, DAG
  • PySpark DataFrames et Spark SQL
  • Transformations vs Actions, lazy evaluation
  • Comparaison : quand utiliser PySpark vs Polars vs DuckDB
  • Lab : Traiter un fichier CSV de 1Go avec PySpark
Semaine 14

Python Data - Fichiers, Validation et Bonnes Pratiques

  • Formats de fichiers : Parquet, Avro, JSON, ORC, Delta Lake
  • Lecture/ecriture avec DuckDB, Polars et pyarrow
  • Data Validation avec Pandera : schemas, checks, decorators
  • Logging structure (structlog) et retry (tenacity)
  • Code propre et maintenable pour les pipelines data
Semaine 15

Python Data - Projet Pipeline ETL Complet

  • Projet complet : pipeline ETL de bout en bout
  • Extract : API REST + CSV + PostgreSQL
  • Validation : schema Pandera en entree et sortie
  • Transform : nettoyage avec pandas/Polars, profiling avec DuckDB
  • Load : chargement dans PostgreSQL avec SQLAlchemy
  • Monitoring : logging structure + gestion d'erreurs
Semaine 16

Revision et Examen Final

  • Revision globale des 3 modules
  • Refaire les labs et exercices cles
  • Passer l'examen final (30 questions)
  • Identifier les axes d'amelioration pour la Phase 2

6 Communautes et Forums

CommunauteGratuit

r/SQL (Reddit)

Communaute Reddit active avec plus de 200k membres. Questions/reponses, partage d'astuces, revues de requetes et discussions sur les bonnes pratiques SQL. Excellent pour obtenir de l'aide rapidement.

reddit.com/r/SQL →
CommunauteGratuit

PostgreSQL Mailing Lists

Les listes de diffusion officielles de PostgreSQL. La liste pgsql-general pour les questions generales et pgsql-performance pour l'optimisation. Archives consultables et communaute d'experts tres reactive.

postgresql.org/list →
CommunauteGratuit

MongoDB Community Forums

Forum officiel MongoDB avec des categories par langage et par produit. Les ingenieurs MongoDB y repondent regulierement. Bon complement a Stack Overflow pour les questions specifiques MongoDB.

mongodb.com/community →
CommunauteGratuit

Stack Overflow - Tags SQL / NoSQL

La reference pour les questions techniques. Suivez les tags [sql], [postgresql], [mongodb], [redis], [apache-spark], [pandas] pour rester a jour et trouver des solutions a vos problemes.

stackoverflow.com →
CommunauteGratuit

r/dataengineering (Reddit)

Communaute dediee au Data Engineering. Discussions sur les architectures de donnees, les outils, les pipelines, et les parcours de carriere. Tres pertinent pour un futur Data Architect.

reddit.com/r/dataengineering →
CommunauteGratuit

Data Talks Club (Discord + Slack)

Communaute internationale de Data Engineering avec plus de 40 000 membres. Cours gratuits, projets collaboratifs, events hebdomadaires, et mentorat. Tres actif avec des workshops Data Engineering, MLOps et Analytics Engineering.

datatalks.club →
← Retour au cours Phase 1