High Availability, Disaster Recovery, Performance & Site Reliability Engineering
Le livre fondateur de Google sur les pratiques SRE. Couvre les SLOs, error budgets, toil, on-call, et l'automatisation. Reference absolue pour tout SRE.
Lire le livre โLe guide pratique companion du SRE Book. Exercices concrets, case studies, et implementation details pour appliquer les principes SRE.
Lire le livre โComment integrer securite et fiabilite des le design. Pratiques Google pour des systemes robustes et securises.
Lire le livre โPar Martin Kleppmann. La bible des systemes distribues: replication, partitioning, consistency, fault tolerance. Indispensable.
Site officiel โPar Michael Nygard. Design et deploy de production-ready software. Patterns de stabilite, anti-patterns, et lessons learned.
Pragmatic Bookshelf โPar Casey Rosenthal et Nora Jones. System resiliency in practice. Comment implementer le chaos engineering dans votre organisation.
O'Reilly โNetflix chaos engineering
Open SourceChaos as a Service
SaaSChaos for Kubernetes
CNCFOpen chaos framework
Open SourceLoad balancer HA
Open SourceVRRP failover
Open SourceBackup K8s clusters
CNCFFast secure backups
Open SourceModern load testing
Open SourceScala-based testing
Open SourcePython load testing
Open SourceJava performance
ApacheMetrics & alerting
CNCFVisualization
Open SourceDistributed tracing
CNCFLog aggregation
Grafana LabsGitOps for Kubernetes
CNCFGitOps toolkit
CNCFInfrastructure as Code
HashiCorpIaC with real code
Open SourceIncident management
SaaSOn-call & alerting
AtlassianDeveloper portal
CNCFInternal dev portal
SaaSSRE talks, cloud architecture, best practices de Google. Series "SRE Classroom" excellente.
Cloud Native Computing Foundation. KubeCon talks, projets CNCF, cloud native patterns.
Terraform, Vault, Consul. Infrastructure as Code, secrets management, service mesh.
Viktor Farcic. GitOps, Kubernetes, Crossplane, ArgoCD. Tutorials approfondis.
DevOps, Kubernetes, Docker, CI/CD. Excellentes explications pour debutants et intermediaires.
Cloud native, Kubernetes, platform engineering. Streams et tutorials avances.
Marcel Dempers. Kubernetes deep dives, service mesh, GitOps implementations.
100 seconds explainers, comparatifs tech. Parfait pour comprendre rapidement les concepts.
Linux Foundation / CNCF
Linux Foundation / CNCF
Amazon Web Services
Google Cloud
HashiCorp
Codefresh / CNCF
SLA/SLO/SLI, patterns de redundance, calculs de disponibilite. Lire chapitres 2-4 du SRE Book.
Strategies DR, RTO/RPO, backup strategies. Lab: implementer un plan DR avec Velero sur K8s.
Principes du chaos engineering, premiers game days. Lab: installer LitmusChaos et executer des experiences.
Metriques de performance, load testing avec k6, interpretation des resultats. Lab: profiler une application.
Error budgets, toil, incident management, post-mortems. Lire le SRE Workbook chapitres pratiques.
ArgoCD, Flux, internal developer platforms. Lab: deployer une app complete en GitOps avec ArgoCD.
Articles officiels de Google SRE team. Case studies, nouvelles pratiques, lessons learned des plus grands systemes.
Visiter โChaos engineering, resilience patterns, architecture a grande echelle. Pionniers du chaos engineering.
Visiter โPatterns HA, multi-region, disaster recovery sur AWS. Reference architectures bien documentees.
Visiter โChaos engineering pratique, game day guides, failure injection patterns. Tres pedagogique.
Visiter โCommunaute platform engineering. Best practices, tools, case studies d'Internal Developer Platforms.
Visiter โState of DevOps reports, DORA metrics research. Donnees scientifiques sur la performance DevOps.
Visiter โConference USENIX dediee SRE. Talks avances, workshops, networking avec les meilleurs SREs du monde.
Voir les talks โLa plus grande conference cloud native. Kubernetes, observability, GitOps, service mesh.
YouTube CNCF โConference dediee au chaos engineering par Gremlin. Experiences, patterns, game days.
Voir les talks โConference 100% virtuelle sur le platform engineering. Talks, demos, case studies.
Visiter โCreer un dashboard complet avec SLIs, SLOs, error budget burn rate. Implementer des alertes basees sur le budget.
Organiser un game day complet: hypotheses, experiences, observations, post-mortem. Documenter les findings.
Automatiser un plan DR complet: backup, restore, failover. Tester regulierement avec des drills.
Pipeline GitOps complet avec environnements (dev/staging/prod), progressive delivery, rollback automatique.
Suite de tests de performance automatises dans CI/CD. Regression testing, baseline comparison, reporting.
Internal Developer Platform basique avec service catalog, templates, documentation. Golden paths pour devs.