Cheatsheet Phase 4 - Production & Enterprise

DEPLOY API vs Bedrock vs Vertex

API Anthropic	Direct, toutes features, SOC2
AWS Bedrock	IAM, HIPAA, FedRAMP, VPC
Google Vertex	GCP native, BigQuery, ISO

# Bedrock
client = anthropic.AnthropicBedrock(aws_region="eu-west-1")
# Vertex
client = anthropic.AnthropicVertex(project_id="x", region="europe-west1")

DEPLOY Infrastructure Scalable

Load Balancer → Workers (auto-scale)
  → Request Queue (priority)
    → Claude API Pool (multi-key)

Auto-scaling

Queue depth > 100 → scale up
Latence p95 > 5s → scale up
Multi API keys = N × rate limits

DEPLOY Securite Enterprise

Couches

Identite : SSO (SAML/OIDC) → RBAC → Budget/user
Reseau : WAF → VPC → Private Endpoints → TLS 1.3
Donnees : Encryption rest/transit, PII masking
Audit : Logs → SIEM → Alerting → 12+ mois retention

# API keys: TOUJOURS dans Secret Manager
key = secrets_manager.get("prod/claude/api-key")

DEPLOY Conformite RGPD

Points cles

Anthropic ne s'entraine PAS sur les donnees API
Retention : 30 jours (configurable enterprise)
DPA (Data Processing Agreement) disponible
Anonymiser les PII avant envoi a Claude

Documents a preparer

DPIA par cas d'usage
DPA signe avec Anthropic
Registre des traitements
Procedure droit a l'effacement

DEPLOY CI/CD pour IA

Push → Unit Tests → Prompt Tests
  → Eval Suite (RAGAS) → Approval
    → Deploy Canary → Deploy Full

Tests specifiques LLM

Format de sortie (JSON valide, structure)
Securite (pas de PII, anti-injection)
Regression (jeu de test 50+ Q/A)
Qualite (RAGAS > 0.85 threshold)

Utiliser Haiku pour les tests CI (5x moins cher)

FINOPS Pricing Claude

Opus 4.6	$15/M input, $75/M output
Sonnet 4.5	$3/M input, $15/M output
Haiku 4.5	$1/M input, $5/M output
Batch	-50% sur tous les modeles
Prompt cache	-90% sur tokens caches

1M tokens ≈ 750K mots ≈ 3000 pages

FINOPS Model Routing

classify(query) → complexity score
  low  → Haiku  ($1/M, fast)
  mid  → Sonnet ($3/M, balanced)
  high → Opus   ($15/M, best)

Regles de routing

Classification/tri → Haiku
Chat general → Sonnet
Analyse complexe → Opus
Batch (pas urgent) → Haiku batch (-75%)

FINOPS Optimisation Couts

7 techniques par impact

Prompt caching : -90% input (system prompt)
Model routing : -60% (Haiku vs Opus)
Batching API : -50% (async)
Response caching : -95% (Redis hit)
Prompt compression : -30% (tokens inutiles)
Streaming : 0% cout mais -70% TTFT
Max tokens : eviter les reponses trop longues

FINOPS Prompt Caching Avance

system=[{
  "type": "text",
  "text": "Instructions + base knowledge...",
  "cache_control": {"type": "ephemeral"}
}]

Regles

Min 1024 tokens pour cacher
TTL : 5 min d'inactivite
Cout cache write : 1.25× normal
Cout cache read : 0.1× normal (90% eco)
Placer les blocs stables en premier

FINOPS Batching API

batch = client.messages.batches.create(
  requests=[
    {"custom_id": "1", "params": {...}},
    {"custom_id": "2", "params": {...}},
  ]
)
# Resultat en quelques heures, -50% cout

Max 10000 requetes par batch
Resultat sous 24h (souvent 1-2h)
50% de reduction sur tous les modeles
Ideal pour : rapports, migration, analyse bulk

FINOPS Dashboard Couts

Metriques essentielles

Cout/jour par modele et par equipe
Cout moyen par requete
Tokens consommes (input vs output)
Cache hit rate (objectif > 30%)
Budget restant vs consomme

Alertes

Cout journalier > budget → alerte
Requete > $5 → alerte anomalie
Cache hit < 20% → alerte perf

GOV Ethique & IA Responsable

Principes Anthropic

Helpful : utile pour l'utilisateur
Harmless : ne cause pas de tort
Honest : transparent et veridique

A surveiller

Biais dans les reponses (genre, culture)
Hallucinations (infos inventees)
Impacts sociaux (emploi, vie privee)
Usage detourne (desinformation)

GOV Constitutional AI

Comment ca marche

RLHF : Feedback humain pour aligner le modele
RLAIF : Feedback IA (constitution) pour l'auto-correction
Constitution : principes ethiques codes

Modele genere → Evalue sa propre reponse
→ Revise selon les principes constitutionnels
→ Entraine sur les reponses revisees

GOV Evaluation & Benchmarks

MMLU	Connaissances generales (57 sujets)
HumanEval	Generation de code Python
SWE-bench	Resolution de bugs reels GitHub
GPQA	Questions PhD-level
MATH	Problemes mathematiques
Custom Evals	Vos propres jeux de test

GOV Gouvernance des Modeles

Lifecycle

Evaluation → Pilote → Production
  → Monitoring → Deprecation
  → Migration vers nouveau modele

Politique de versioning

Epingler les versions de modeles
Tester avant migration (eval suite)
Rollback plan en cas de regression
Documenter les decisions de changement

GOV Tendances & Futur

Scaling Laws

Plus de compute + plus de donnees = meilleur modele (mais rendements decroissants)

Tendances 2025-2026

Agents autonomes en production
MCP comme standard d'interoperabilite
Regulation IA (EU AI Act, US EO)
Multimodalite native (texte+image+audio)
Modeles specialises par domaine

GOV AAIF & Standards

Agentic AI Foundation (Linux Foundation)

Standardiser les interactions agent-outil
MCP comme protocole de reference
Interoperabilite multi-vendeurs
Governance et securite des agents

Standards emergents

MCP (Model Context Protocol)
A2A (Agent-to-Agent, Google)
OpenTelemetry pour LLM
EU AI Act classification

DEPLOY RBAC Template

Viewer  → chat only
User    → chat + RAG
Power   → chat + RAG + agents
Admin   → all + config + audit

Budget par role:
  Viewer: 50K tokens/jour
  User:   200K tokens/jour
  Power:  500K tokens/jour
  Admin:  unlimited

FINOPS Calcul de Cout

# Formule
cout = (input_tokens × input_price +
        output_tokens × output_price) / 1_000_000

# Exemple Sonnet
# 1000 requetes × 2K input × 500 output
cost = (1000 × 2000 × 3 +
        1000 × 500 × 15) / 1_000_000
# = $6 + $7.50 = $13.50

# Avec prompt caching (90% hit):
# = $0.60 + $7.50 = $8.10 (-40%)

DEPLOY Architecture Reference

┌──────────────────────────┐
│     CDN / WAF            │
├──────────────────────────┤
│   API Gateway + SSO      │
├────┬─────┬─────┬─────────┤
│Chat│ RAG │Agent│ Batch   │
│Svc │ Svc │ Svc │ Svc     │
├────┴─────┴─────┴─────────┤
│  Queue + Rate Limiter    │
├────┬─────┬───────────────┤
│Claude│VecDB│ PostgreSQL  │
│ API  │     │ Redis Cache │
├──────┴─────┴─────────────┤
│ Monitoring + Audit Logs  │
└──────────────────────────┘