DEPLOY API vs Bedrock vs Vertex
| API Anthropic | Direct, toutes features, SOC2 |
| AWS Bedrock | IAM, HIPAA, FedRAMP, VPC |
| Google Vertex | GCP native, BigQuery, ISO |
# Bedrock
client = anthropic.AnthropicBedrock(aws_region="eu-west-1")
# Vertex
client = anthropic.AnthropicVertex(project_id="x", region="europe-west1")
DEPLOY Infrastructure Scalable
Load Balancer → Workers (auto-scale)
→ Request Queue (priority)
→ Claude API Pool (multi-key)
Auto-scaling
- Queue depth > 100 → scale up
- Latence p95 > 5s → scale up
- Multi API keys = N × rate limits
DEPLOY Securite Enterprise
Couches
- Identite : SSO (SAML/OIDC) → RBAC → Budget/user
- Reseau : WAF → VPC → Private Endpoints → TLS 1.3
- Donnees : Encryption rest/transit, PII masking
- Audit : Logs → SIEM → Alerting → 12+ mois retention
# API keys: TOUJOURS dans Secret Manager
key = secrets_manager.get("prod/claude/api-key")
DEPLOY Conformite RGPD
Points cles
- Anthropic ne s'entraine PAS sur les donnees API
- Retention : 30 jours (configurable enterprise)
- DPA (Data Processing Agreement) disponible
- Anonymiser les PII avant envoi a Claude
Documents a preparer
- DPIA par cas d'usage
- DPA signe avec Anthropic
- Registre des traitements
- Procedure droit a l'effacement
DEPLOY CI/CD pour IA
Push → Unit Tests → Prompt Tests
→ Eval Suite (RAGAS) → Approval
→ Deploy Canary → Deploy Full
Tests specifiques LLM
- Format de sortie (JSON valide, structure)
- Securite (pas de PII, anti-injection)
- Regression (jeu de test 50+ Q/A)
- Qualite (RAGAS > 0.85 threshold)
Utiliser Haiku pour les tests CI (5x moins cher)
FINOPS Pricing Claude
| Opus 4.6 | $15/M input, $75/M output |
| Sonnet 4.5 | $3/M input, $15/M output |
| Haiku 4.5 | $1/M input, $5/M output |
| Batch | -50% sur tous les modeles |
| Prompt cache | -90% sur tokens caches |
1M tokens ≈ 750K mots ≈ 3000 pages
FINOPS Model Routing
classify(query) → complexity score
low → Haiku ($1/M, fast)
mid → Sonnet ($3/M, balanced)
high → Opus ($15/M, best)
Regles de routing
- Classification/tri → Haiku
- Chat general → Sonnet
- Analyse complexe → Opus
- Batch (pas urgent) → Haiku batch (-75%)
FINOPS Optimisation Couts
7 techniques par impact
- Prompt caching : -90% input (system prompt)
- Model routing : -60% (Haiku vs Opus)
- Batching API : -50% (async)
- Response caching : -95% (Redis hit)
- Prompt compression : -30% (tokens inutiles)
- Streaming : 0% cout mais -70% TTFT
- Max tokens : eviter les reponses trop longues
FINOPS Prompt Caching Avance
system=[{
"type": "text",
"text": "Instructions + base knowledge...",
"cache_control": {"type": "ephemeral"}
}]
Regles
- Min 1024 tokens pour cacher
- TTL : 5 min d'inactivite
- Cout cache write : 1.25× normal
- Cout cache read : 0.1× normal (90% eco)
- Placer les blocs stables en premier
FINOPS Batching API
batch = client.messages.batches.create(
requests=[
{"custom_id": "1", "params": {...}},
{"custom_id": "2", "params": {...}},
]
)
# Resultat en quelques heures, -50% cout
- Max 10000 requetes par batch
- Resultat sous 24h (souvent 1-2h)
- 50% de reduction sur tous les modeles
- Ideal pour : rapports, migration, analyse bulk
FINOPS Dashboard Couts
Metriques essentielles
- Cout/jour par modele et par equipe
- Cout moyen par requete
- Tokens consommes (input vs output)
- Cache hit rate (objectif > 30%)
- Budget restant vs consomme
Alertes
- Cout journalier > budget → alerte
- Requete > $5 → alerte anomalie
- Cache hit < 20% → alerte perf
GOV Ethique & IA Responsable
Principes Anthropic
- Helpful : utile pour l'utilisateur
- Harmless : ne cause pas de tort
- Honest : transparent et veridique
A surveiller
- Biais dans les reponses (genre, culture)
- Hallucinations (infos inventees)
- Impacts sociaux (emploi, vie privee)
- Usage detourne (desinformation)
GOV Constitutional AI
Comment ca marche
- RLHF : Feedback humain pour aligner le modele
- RLAIF : Feedback IA (constitution) pour l'auto-correction
- Constitution : principes ethiques codes
Modele genere → Evalue sa propre reponse
→ Revise selon les principes constitutionnels
→ Entraine sur les reponses revisees
GOV Evaluation & Benchmarks
| MMLU | Connaissances generales (57 sujets) |
| HumanEval | Generation de code Python |
| SWE-bench | Resolution de bugs reels GitHub |
| GPQA | Questions PhD-level |
| MATH | Problemes mathematiques |
| Custom Evals | Vos propres jeux de test |
GOV Gouvernance des Modeles
Lifecycle
Evaluation → Pilote → Production
→ Monitoring → Deprecation
→ Migration vers nouveau modele
Politique de versioning
- Epingler les versions de modeles
- Tester avant migration (eval suite)
- Rollback plan en cas de regression
- Documenter les decisions de changement
GOV Tendances & Futur
Scaling Laws
Plus de compute + plus de donnees = meilleur modele (mais rendements decroissants)
Tendances 2025-2026
- Agents autonomes en production
- MCP comme standard d'interoperabilite
- Regulation IA (EU AI Act, US EO)
- Multimodalite native (texte+image+audio)
- Modeles specialises par domaine
GOV AAIF & Standards
Agentic AI Foundation (Linux Foundation)
- Standardiser les interactions agent-outil
- MCP comme protocole de reference
- Interoperabilite multi-vendeurs
- Governance et securite des agents
Standards emergents
- MCP (Model Context Protocol)
- A2A (Agent-to-Agent, Google)
- OpenTelemetry pour LLM
- EU AI Act classification
DEPLOY RBAC Template
Viewer → chat only
User → chat + RAG
Power → chat + RAG + agents
Admin → all + config + audit
Budget par role:
Viewer: 50K tokens/jour
User: 200K tokens/jour
Power: 500K tokens/jour
Admin: unlimited
FINOPS Calcul de Cout
# Formule
cout = (input_tokens × input_price +
output_tokens × output_price) / 1_000_000
# Exemple Sonnet
# 1000 requetes × 2K input × 500 output
cost = (1000 × 2000 × 3 +
1000 × 500 × 15) / 1_000_000
# = $6 + $7.50 = $13.50
# Avec prompt caching (90% hit):
# = $0.60 + $7.50 = $8.10 (-40%)
DEPLOY Architecture Reference
┌──────────────────────────┐
│ CDN / WAF │
├──────────────────────────┤
│ API Gateway + SSO │
├────┬─────┬─────┬─────────┤
│Chat│ RAG │Agent│ Batch │
│Svc │ Svc │ Svc │ Svc │
├────┴─────┴─────┴─────────┤
│ Queue + Rate Limiter │
├────┬─────┬───────────────┤
│Claude│VecDB│ PostgreSQL │
│ API │ │ Redis Cache │
├──────┴─────┴─────────────┤
│ Monitoring + Audit Logs │
└──────────────────────────┘