Cheatsheet Phase 4 - Production & Enterprise

Retour au Module Ressources

DEPLOY API vs Bedrock vs Vertex

API AnthropicDirect, toutes features, SOC2
AWS BedrockIAM, HIPAA, FedRAMP, VPC
Google VertexGCP native, BigQuery, ISO
# Bedrock
client = anthropic.AnthropicBedrock(aws_region="eu-west-1")
# Vertex
client = anthropic.AnthropicVertex(project_id="x", region="europe-west1")

DEPLOY Infrastructure Scalable

Load Balancer → Workers (auto-scale)
  → Request Queue (priority)
    → Claude API Pool (multi-key)

Auto-scaling

  • Queue depth > 100 → scale up
  • Latence p95 > 5s → scale up
  • Multi API keys = N × rate limits

DEPLOY Securite Enterprise

Couches

  • Identite : SSO (SAML/OIDC) → RBAC → Budget/user
  • Reseau : WAF → VPC → Private Endpoints → TLS 1.3
  • Donnees : Encryption rest/transit, PII masking
  • Audit : Logs → SIEM → Alerting → 12+ mois retention
# API keys: TOUJOURS dans Secret Manager
key = secrets_manager.get("prod/claude/api-key")

DEPLOY Conformite RGPD

Points cles

  • Anthropic ne s'entraine PAS sur les donnees API
  • Retention : 30 jours (configurable enterprise)
  • DPA (Data Processing Agreement) disponible
  • Anonymiser les PII avant envoi a Claude

Documents a preparer

  • DPIA par cas d'usage
  • DPA signe avec Anthropic
  • Registre des traitements
  • Procedure droit a l'effacement

DEPLOY CI/CD pour IA

Push → Unit Tests → Prompt Tests
  → Eval Suite (RAGAS) → Approval
    → Deploy Canary → Deploy Full

Tests specifiques LLM

  • Format de sortie (JSON valide, structure)
  • Securite (pas de PII, anti-injection)
  • Regression (jeu de test 50+ Q/A)
  • Qualite (RAGAS > 0.85 threshold)

Utiliser Haiku pour les tests CI (5x moins cher)

FINOPS Pricing Claude

Opus 4.6$15/M input, $75/M output
Sonnet 4.5$3/M input, $15/M output
Haiku 4.5$1/M input, $5/M output
Batch-50% sur tous les modeles
Prompt cache-90% sur tokens caches

1M tokens ≈ 750K mots ≈ 3000 pages

FINOPS Model Routing

classify(query) → complexity score
  low  → Haiku  ($1/M, fast)
  mid  → Sonnet ($3/M, balanced)
  high → Opus   ($15/M, best)

Regles de routing

  • Classification/tri → Haiku
  • Chat general → Sonnet
  • Analyse complexe → Opus
  • Batch (pas urgent) → Haiku batch (-75%)

FINOPS Optimisation Couts

7 techniques par impact

  1. Prompt caching : -90% input (system prompt)
  2. Model routing : -60% (Haiku vs Opus)
  3. Batching API : -50% (async)
  4. Response caching : -95% (Redis hit)
  5. Prompt compression : -30% (tokens inutiles)
  6. Streaming : 0% cout mais -70% TTFT
  7. Max tokens : eviter les reponses trop longues

FINOPS Prompt Caching Avance

system=[{
  "type": "text",
  "text": "Instructions + base knowledge...",
  "cache_control": {"type": "ephemeral"}
}]

Regles

  • Min 1024 tokens pour cacher
  • TTL : 5 min d'inactivite
  • Cout cache write : 1.25× normal
  • Cout cache read : 0.1× normal (90% eco)
  • Placer les blocs stables en premier

FINOPS Batching API

batch = client.messages.batches.create(
  requests=[
    {"custom_id": "1", "params": {...}},
    {"custom_id": "2", "params": {...}},
  ]
)
# Resultat en quelques heures, -50% cout
  • Max 10000 requetes par batch
  • Resultat sous 24h (souvent 1-2h)
  • 50% de reduction sur tous les modeles
  • Ideal pour : rapports, migration, analyse bulk

FINOPS Dashboard Couts

Metriques essentielles

  • Cout/jour par modele et par equipe
  • Cout moyen par requete
  • Tokens consommes (input vs output)
  • Cache hit rate (objectif > 30%)
  • Budget restant vs consomme

Alertes

  • Cout journalier > budget → alerte
  • Requete > $5 → alerte anomalie
  • Cache hit < 20% → alerte perf

GOV Ethique & IA Responsable

Principes Anthropic

  • Helpful : utile pour l'utilisateur
  • Harmless : ne cause pas de tort
  • Honest : transparent et veridique

A surveiller

  • Biais dans les reponses (genre, culture)
  • Hallucinations (infos inventees)
  • Impacts sociaux (emploi, vie privee)
  • Usage detourne (desinformation)

GOV Constitutional AI

Comment ca marche

  • RLHF : Feedback humain pour aligner le modele
  • RLAIF : Feedback IA (constitution) pour l'auto-correction
  • Constitution : principes ethiques codes
Modele genere → Evalue sa propre reponse
→ Revise selon les principes constitutionnels
→ Entraine sur les reponses revisees

GOV Evaluation & Benchmarks

MMLUConnaissances generales (57 sujets)
HumanEvalGeneration de code Python
SWE-benchResolution de bugs reels GitHub
GPQAQuestions PhD-level
MATHProblemes mathematiques
Custom EvalsVos propres jeux de test

GOV Gouvernance des Modeles

Lifecycle

Evaluation → Pilote → Production
  → Monitoring → Deprecation
  → Migration vers nouveau modele

Politique de versioning

  • Epingler les versions de modeles
  • Tester avant migration (eval suite)
  • Rollback plan en cas de regression
  • Documenter les decisions de changement

GOV Tendances & Futur

Scaling Laws

Plus de compute + plus de donnees = meilleur modele (mais rendements decroissants)

Tendances 2025-2026

  • Agents autonomes en production
  • MCP comme standard d'interoperabilite
  • Regulation IA (EU AI Act, US EO)
  • Multimodalite native (texte+image+audio)
  • Modeles specialises par domaine

GOV AAIF & Standards

Agentic AI Foundation (Linux Foundation)

  • Standardiser les interactions agent-outil
  • MCP comme protocole de reference
  • Interoperabilite multi-vendeurs
  • Governance et securite des agents

Standards emergents

  • MCP (Model Context Protocol)
  • A2A (Agent-to-Agent, Google)
  • OpenTelemetry pour LLM
  • EU AI Act classification

DEPLOY RBAC Template

Viewer  → chat only
User    → chat + RAG
Power   → chat + RAG + agents
Admin   → all + config + audit

Budget par role:
  Viewer: 50K tokens/jour
  User:   200K tokens/jour
  Power:  500K tokens/jour
  Admin:  unlimited

FINOPS Calcul de Cout

# Formule
cout = (input_tokens × input_price +
        output_tokens × output_price) / 1_000_000

# Exemple Sonnet
# 1000 requetes × 2K input × 500 output
cost = (1000 × 2000 × 3 +
        1000 × 500 × 15) / 1_000_000
# = $6 + $7.50 = $13.50

# Avec prompt caching (90% hit):
# = $0.60 + $7.50 = $8.10 (-40%)

DEPLOY Architecture Reference

┌──────────────────────────┐
│     CDN / WAF            │
├──────────────────────────┤
│   API Gateway + SSO      │
├────┬─────┬─────┬─────────┤
│Chat│ RAG │Agent│ Batch   │
│Svc │ Svc │ Svc │ Svc     │
├────┴─────┴─────┴─────────┤
│  Queue + Rate Limiter    │
├────┬─────┬───────────────┤
│Claude│VecDB│ PostgreSQL  │
│ API  │     │ Redis Cache │
├──────┴─────┴─────────────┤
│ Monitoring + Audit Logs  │
└──────────────────────────┘