Ressources Phase 5 - Specialisation HA/DR/SRE

📖 Livres Essentiels

Site Reliability Engineering

Livre Gratuit Online

Le livre fondateur de Google sur les pratiques SRE. Couvre les SLOs, error budgets, toil, on-call, et l'automatisation. Reference absolue pour tout SRE.

Lire le livre →

The Site Reliability Workbook

Livre Gratuit Online

Le guide pratique companion du SRE Book. Exercices concrets, case studies, et implementation details pour appliquer les principes SRE.

Lire le livre →

Building Secure & Reliable Systems

Livre Gratuit Online

Comment integrer securite et fiabilite des le design. Pratiques Google pour des systemes robustes et securises.

Lire le livre →

Designing Data-Intensive Applications

Livre Payant

Par Martin Kleppmann. La bible des systemes distribues: replication, partitioning, consistency, fault tolerance. Indispensable.

Site officiel →

Release It!

Livre Payant

Par Michael Nygard. Design et deploy de production-ready software. Patterns de stabilite, anti-patterns, et lessons learned.

Pragmatic Bookshelf →

Chaos Engineering

Livre Payant

Par Casey Rosenthal et Nora Jones. System resiliency in practice. Comment implementer le chaos engineering dans votre organisation.

O'Reilly →

🔧 Outils High Availability & DR

🐵

Chaos Monkey

Netflix chaos engineering

Open Source

👹

Gremlin

Chaos as a Service

SaaS

🧪

LitmusChaos

Chaos for Kubernetes

CNCF

⚡

Chaos Toolkit

Open chaos framework

Open Source

🔄

HAProxy

Load balancer HA

Open Source

🌐

Keepalived

VRRP failover

Open Source

💾

Velero

Backup K8s clusters

CNCF

🗄️

Restic

Fast secure backups

Open Source

📊 Outils Performance & Testing

🚀

k6

Modern load testing

Open Source

⚡

Gatling

Scala-based testing

Open Source

🐝

Locust

Python load testing

Open Source

🔥

Apache JMeter

Java performance

Apache

📈

Prometheus

Metrics & alerting

CNCF

📊

Grafana

Visualization

Open Source

🔍

Jaeger

Distributed tracing

CNCF

📝

Loki

Log aggregation

Grafana Labs

🔄 Outils GitOps & SRE

🎯

ArgoCD

GitOps for Kubernetes

CNCF

🔁

Flux

GitOps toolkit

CNCF

🏗️

Terraform

Infrastructure as Code

HashiCorp

🎭

Pulumi

IaC with real code

Open Source

📟

PagerDuty

Incident management

SaaS

🚨

Opsgenie

On-call & alerting

Atlassian

📋

Backstage

Developer portal

CNCF

🎪

Port

Internal dev portal

SaaS

🎬 Chaines YouTube Recommandees

▶️ Google Cloud Tech

SRE talks, cloud architecture, best practices de Google. Series "SRE Classroom" excellente.

▶️ CNCF

Cloud Native Computing Foundation. KubeCon talks, projets CNCF, cloud native patterns.

▶️ HashiCorp

Terraform, Vault, Consul. Infrastructure as Code, secrets management, service mesh.

▶️ DevOps Toolkit

Viktor Farcic. GitOps, Kubernetes, Crossplane, ArgoCD. Tutorials approfondis.

▶️ TechWorld with Nana

DevOps, Kubernetes, Docker, CI/CD. Excellentes explications pour debutants et intermediaires.

▶️ Rawkode Academy

Cloud native, Kubernetes, platform engineering. Streams et tutorials avances.

▶️ That DevOps Guy

Marcel Dempers. Kubernetes deep dives, service mesh, GitOps implementations.

▶️ Fireship

100 seconds explainers, comparatifs tech. Parfait pour comprendre rapidement les concepts.

🎓 Parcours de Certifications

CKA - Certified Kubernetes Administrator

Linux Foundation / CNCF

Administration clusters K8s
Networking, storage, security
Troubleshooting avance
Exam pratique (2h)

Intermediaire

CKS - Certified Kubernetes Security

Linux Foundation / CNCF

Securite des clusters
Supply chain security
Runtime security
Prerequis: CKA

Avance

AWS Solutions Architect Professional

Amazon Web Services

Architecture HA/DR
Migration strategies
Cost optimization
Multi-region design

Avance

GCP Professional Cloud Architect

Google Cloud

Design for reliability
SRE principles
Hybrid/multi-cloud
Security & compliance

Avance

HashiCorp Terraform Associate

HashiCorp

IaC fundamentals
Terraform workflow
Modules et state
Cloud-agnostic

Fondamental

GitOps Fundamentals

Codefresh / CNCF

GitOps principles
ArgoCD/Flux basics
Progressive delivery
Certification gratuite

Fondamental Gratuit

📅 Plan d'Etude Recommande - 12 Semaines

Sem 1-2

Module 5.1: High Availability Foundations

SLA/SLO/SLI, patterns de redundance, calculs de disponibilite. Lire chapitres 2-4 du SRE Book.

Sem 3-4

Module 5.1: Disaster Recovery

Strategies DR, RTO/RPO, backup strategies. Lab: implementer un plan DR avec Velero sur K8s.

Sem 5-6

Module 5.1: Chaos Engineering

Principes du chaos engineering, premiers game days. Lab: installer LitmusChaos et executer des experiences.

Sem 7-8

Module 5.2: Performance Testing

Metriques de performance, load testing avec k6, interpretation des resultats. Lab: profiler une application.

Sem 9-10

Module 5.3: SRE Practices

Error budgets, toil, incident management, post-mortems. Lire le SRE Workbook chapitres pratiques.

Sem 11-12

Module 5.3: GitOps & Platform Engineering

ArgoCD, Flux, internal developer platforms. Lab: deployer une app complete en GitOps avec ArgoCD.

👥 Communautes & Forums

🔴 r/sre 🔴 r/devops 💬 Kubernetes Slack 💬 CNCF Slack 🌐 SRE.xyz 📰 SRE Weekly 📰 DevOps Weekly 🎬 SREcon Talks

📝 Blogs & Articles Incontournables

Google SRE Blog

Gratuit

Articles officiels de Google SRE team. Case studies, nouvelles pratiques, lessons learned des plus grands systemes.

Visiter →

Netflix Tech Blog

Gratuit

Chaos engineering, resilience patterns, architecture a grande echelle. Pionniers du chaos engineering.

Visiter →

AWS Architecture Blog

Gratuit

Patterns HA, multi-region, disaster recovery sur AWS. Reference architectures bien documentees.

Visiter →

Gremlin Blog

Gratuit

Chaos engineering pratique, game day guides, failure injection patterns. Tres pedagogique.

Visiter →

Platform Engineering

Gratuit

Communaute platform engineering. Best practices, tools, case studies d'Internal Developer Platforms.

Visiter →

DORA Research

Gratuit

State of DevOps reports, DORA metrics research. Donnees scientifiques sur la performance DevOps.

Visiter →

🎤 Conferences

SREcon

Videos

Conference USENIX dediee SRE. Talks avances, workshops, networking avec les meilleurs SREs du monde.

Voir les talks →

KubeCon + CloudNativeCon

Videos

La plus grande conference cloud native. Kubernetes, observability, GitOps, service mesh.

YouTube CNCF →

Chaos Conf

Videos

Conference dediee au chaos engineering par Gremlin. Experiences, patterns, game days.

Voir les talks →

PlatformCon

Videos Gratuit

Conference 100% virtuelle sur le platform engineering. Talks, demos, case studies.

Visiter →

🛠️ Projets Pratiques Suggeres

Projet 1: SLO Dashboard

Prometheus + Grafana

Creer un dashboard complet avec SLIs, SLOs, error budget burn rate. Implementer des alertes basees sur le budget.

Projet 2: Chaos Game Day

LitmusChaos

Organiser un game day complet: hypotheses, experiences, observations, post-mortem. Documenter les findings.

Projet 3: DR Automation

Velero + Terraform

Automatiser un plan DR complet: backup, restore, failover. Tester regulierement avec des drills.

Projet 4: GitOps Pipeline

ArgoCD + Kustomize

Pipeline GitOps complet avec environnements (dev/staging/prod), progressive delivery, rollback automatique.

Projet 5: Load Testing Suite

k6 + GitHub Actions

Suite de tests de performance automatises dans CI/CD. Regression testing, baseline comparison, reporting.

Projet 6: Mini IDP

Backstage

Internal Developer Platform basique avec service catalog, templates, documentation. Golden paths pour devs.

📚 Ressources Phase 5 - Specialisation

📖 Livres Essentiels

Site Reliability Engineering

The Site Reliability Workbook

Building Secure & Reliable Systems

Designing Data-Intensive Applications

Release It!

Chaos Engineering

🔧 Outils High Availability & DR

Chaos Monkey

Gremlin

LitmusChaos

Chaos Toolkit

HAProxy

Keepalived

Velero

Restic

📊 Outils Performance & Testing

k6

Gatling

Locust

Apache JMeter

Prometheus

Grafana

Jaeger

Loki

🔄 Outils GitOps & SRE

ArgoCD

Flux

Terraform

Pulumi

PagerDuty

Opsgenie

Backstage

Port

🎬 Chaines YouTube Recommandees

▶️ Google Cloud Tech

▶️ CNCF

▶️ HashiCorp

▶️ DevOps Toolkit

▶️ TechWorld with Nana

▶️ Rawkode Academy

▶️ That DevOps Guy

▶️ Fireship

🎓 Parcours de Certifications

CKA - Certified Kubernetes Administrator

CKS - Certified Kubernetes Security

AWS Solutions Architect Professional

GCP Professional Cloud Architect

HashiCorp Terraform Associate

GitOps Fundamentals

📅 Plan d'Etude Recommande - 12 Semaines

Module 5.1: High Availability Foundations

Module 5.1: Disaster Recovery

Module 5.1: Chaos Engineering

Module 5.2: Performance Testing

Module 5.3: SRE Practices

Module 5.3: GitOps & Platform Engineering

👥 Communautes & Forums

📝 Blogs & Articles Incontournables

Google SRE Blog

Netflix Tech Blog

AWS Architecture Blog

Gremlin Blog

Platform Engineering

DORA Research

🎤 Conferences

SREcon

KubeCon + CloudNativeCon

Chaos Conf

PlatformCon

🛠️ Projets Pratiques Suggeres

Projet 1: SLO Dashboard

Projet 2: Chaos Game Day

Projet 3: DR Automation

Projet 4: GitOps Pipeline

Projet 5: Load Testing Suite

Projet 6: Mini IDP