Quand Fine-Tuner vs Prompting vs RAG

Le fine-tuning n'est pas toujours la meilleure solution. Avant d'investir temps et ressources dans l'adaptation d'un modèle, il est crucial de comprendre les trois approches principales et leurs cas d'usage optimaux.

Objectifs de la Leçon

Maîtriser l'arbre de décision pour choisir la bonne approche
Comprendre les coûts et bénéfices de chaque méthode
Éviter les erreurs courantes de sur-engineering
Construire une matrice de décision pour vos projets

L'Arbre de Décision

┌─────────────────────────────────────────┐
│ Besoin d'adapter un LLM à votre usage? │
└──────────────┬──────────────────────────┘
               │
    ┌──────────┴──────────┐
    ▼                     ▼
┌─────────────────┐  ┌─────────────────┐
│ Les données     │  │ Besoin d'un     │
│ changent        │  │ comportement    │
│ fréquemment?    │  │ spécifique      │
│                 │  │ constant?       │
│ OUI → RAG       │  │ OUI → FT        │
└─────────────────┘  └─────────────────┘
    ▼                     ▼
┌─────────────────┐  ┌─────────────────┐
│ Budget < 1000€  │  │ > 500 exemples  │
│ et < 100        │  │ de qualité      │
│ exemples?       │  │ disponibles?    │
│                 │  │                 │
│ OUI → PROMPTING │  │ OUI → FT        │
└─────────────────┘  └─────────────────┘

Comparaison Détaillée des Approches

Critère	Prompting Avancé	RAG	Fine-Tuning
Coût initial	0-50€ (API calls)	500-2000€ (infrastructure)	1000-10000€ (GPU, données)
Temps de setup	Heures	Jours	Semaines
Données requises	5-50 exemples	Documents variés	500-10000+ exemples
Maintenance	Faible (ajuster prompts)	Moyenne (MAJ docs)	Élevée (retraining)
Précision métier	60-80%	75-90%	85-98%
Flexibilité	Très haute	Haute	Faible
Latence	50-500ms	200-1000ms (retrieval)	50-500ms
Explicabilité	Haute (voir le prompt)	Très haute (sources)	Faible (boîte noire)

1. Prompting Avancé: Quand l'Utiliser?

Cas d'usage idéaux: Le prompting excelle pour les prototypes rapides, les tâches avec peu d'exemples, et les besoins qui évoluent fréquemment. C'est votre premier choix pour un POC ou un MVP.

# Exemple: Few-Shot Prompting pour extraction juridique
from openai import OpenAI

client = OpenAI(api_key="your-key")

prompt = """Tu es un assistant juridique expert. Extrais les clauses importantes des contrats.

Exemple 1:
Contrat: "Le locataire s'engage à payer 800€ le 1er de chaque mois."
Extraction: {"type": "paiement", "montant": 800, "périodicité": "mensuel", "date": 1}

Exemple 2:
Contrat: "Le préavis de résiliation est de 3 mois calendaires."
Extraction: {"type": "résiliation", "délai": "3 mois", "unité": "calendaire"}

Exemple 3:
Contrat: "La caution solidaire s'élève à deux mois de loyer."
Extraction: {"type": "caution", "montant_relatif": "2 mois", "nature": "solidaire"}

Maintenant, analyse ce contrat:
{nouveau_contrat}

Réponds uniquement avec le JSON d'extraction, sans explications."""

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": prompt}],
    temperature=0.1  # Basse température pour cohérence
)

print(response.choices[0].message.content)

Avantages du Prompting: Itération ultra-rapide (secondes vs jours), pas besoin de GPU, facilement explicable aux métiers, coût faible pour commencer.

2. RAG: Quand l'Utiliser?

Cas d'usage idéaux: RAG est parfait pour des connaissances qui changent (documentation produit, base de connaissances, actualités) et quand vous devez citer vos sources.

# Architecture RAG complète avec LangChain
from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.llms import Ollama
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains import RetrievalQA

# 1. Préparer les embeddings
embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-MiniLM-L6-v2"
)

# 2. Charger et splitter les documents
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50
)
chunks = text_splitter.split_documents(documents)

# 3. Créer la base vectorielle
vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings,
    persist_directory="./chroma_db"
)

# 4. Créer le retriever
retriever = vectorstore.as_retriever(
    search_type="mmr",  # Maximum Marginal Relevance
    search_kwargs={"k": 5}
)

# 5. Créer la chaîne RAG
llm = Ollama(model="llama3.1:8b")
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    return_source_documents=True
)

# 6. Utiliser le système
query = "Quelle est la procédure de remboursement?"
result = qa_chain({"query": query})

print(f"Réponse: {result['result']}")
print(f"\nSources:")
for doc in result['source_documents']:
    print(f"- {doc.metadata['source']}")

Limitations du RAG: La qualité dépend fortement de la qualité des documents sources. Le retrieval peut échouer sur des questions nécessitant de combiner plusieurs sources. La latence est plus élevée (retrieval + génération).

3. Fine-Tuning: Quand l'Utiliser?

Cas d'usage idéaux: Fine-tuning est optimal pour un style/ton spécifique constant, un domaine très spécialisé, un comportement impossible à obtenir par prompting, ou quand vous avez beaucoup de données de qualité.

# Quand le fine-tuning devient nécessaire
"""
Scénario 1: Style médical ultra-précis
- Besoin: Toujours répondre avec nomenclature exacte
- Prompting: Inconsistant, oublie parfois les codes
- Fine-tuning: Modèle apprend le pattern de manière profonde

Scénario 2: Génération de code dans framework propriétaire
- Besoin: Code suivant conventions internes strictes
- RAG: Ne capture pas les patterns subtils
- Fine-tuning: Apprend les idiomes du framework

Scénario 3: Modèle de chat client avec tone of voice spécifique
- Besoin: Empathie, politesse, vocabulaire marque
- Prompting: Difficile de maintenir cohérence sur long dialogue
- Fine-tuning: Intègre le tone naturellement
"""

# Exemple de dataset pour fine-tuning de style
fine_tuning_data = [
    {
        "messages": [
            {"role": "user", "content": "Je ne comprends pas ma facture."},
            {"role": "assistant", "content": "Je comprends votre préoccupation concernant votre facture. Laissez-moi vous aider à clarifier chaque ligne. Pourriez-vous me préciser quel montant vous semble inhabituel?"}
        ]
    },
    {
        "messages": [
            {"role": "user", "content": "C'est trop cher!"},
            {"role": "assistant", "content": "Je comprends que le montant puisse vous sembler élevé. Analysons ensemble votre consommation pour identifier d'éventuelles optimisations. Quel est votre budget cible?"}
        ]
    }
    # ... 500+ exemples de ce style empathique et structuré
]

Matrice de Décision Pratique

Exercice: Évaluez Votre Cas d'Usage

Étape 1: Répondez à ces questions

Avez-vous plus de 500 exemples de qualité? (Oui/Non)
Les données changent-elles plus d'une fois par mois? (Oui/Non)
Budget GPU disponible > 1000€? (Oui/Non)
Besoin de traçabilité/sources? (Oui/Non)
Délai < 1 semaine pour POC? (Oui/Non)

Étape 2: Scoring

Prompting: Oui à Q5, Non à Q1
RAG: Oui à Q2 ou Q4
Fine-Tuning: Oui à Q1 et Q3, Non à Q2

Conseil du Mentor (30 ans d'expérience): J'ai vu trop d'équipes se lancer directement dans le fine-tuning par excitation technique, pour finalement revenir au prompting avancé. Ma règle d'or: commencez toujours par le prompting (1 jour de travail), testez le RAG si les données sont dynamiques (3-5 jours), et ne passez au fine-tuning que si vous avez clairement identifié ses limites (3+ semaines). 80% des cas se résolvent avec prompting + RAG bien faits.

Cas Réels et Choix Justifiés

Cas 1: Chatbot SAV E-Commerce

Choix: RAG

Catalogue produit change chaque semaine
Besoin de citer références produits exactes
100+ catégories de produits
Budget limité, équipe réduite

Cas 2: Générateur de Rapports Médicaux

Choix: Fine-Tuning

10,000 rapports annotés existants
Terminologie médicale ultra-précise requise
Format structuré immuable (codes CIM-10)
Budget conséquent, enjeu réglementaire

Cas 3: Assistant de Code Interne

Choix: RAG + Prompting

Documentation technique évolutive
Besoin de références aux PRs/Issues
Équipe de 5 devs, pas de ML engineer
POC requis en 1 semaine

Points Clés à Retenir

Commencez toujours par le prompting avancé (few-shot, CoT)
RAG si données dynamiques ou besoin de sources
Fine-tuning si > 500 exemples ET comportement impossible autrement
Le coût total inclut: développement + maintenance + infrastructure
80% des cas réussissent avec prompting + RAG bien implémentés

Erreur #1 à Éviter: Ne fine-tunez pas un modèle pour lui apprendre de nouvelles connaissances factuelles. Utilisez RAG. Le fine-tuning sert à changer le comportement/style, pas à mémoriser des faits.

Préparation des Données

La qualité de votre fine-tuning dépend à 80% de la qualité de vos données. Comprendre les formats, la préparation, et la curation des données est fondamental pour un fine-tuning réussi.

Objectifs de la Leçon

Maîtriser les formats de données (Alpaca, ShareGPT, JSONL)
Comprendre les critères de qualité des données
Apprendre à équilibrer un dataset de fine-tuning
Créer un pipeline de préparation de données

Les Formats de Données Standards

1. Format Alpaca (Instruction-Input-Output)

Format Alpaca: Créé par Stanford, c'est le format le plus simple pour le fine-tuning d'instructions. Idéal pour des tâches avec instructions claires.

# Format Alpaca standard
{
    "instruction": "Résume ce texte en une phrase.",
    "input": "L'intelligence artificielle transforme de nombreux secteurs...",
    "output": "L'IA révolutionne l'économie mondiale à travers l'automatisation."
}

# Alpaca sans input (instruction directe)
{
    "instruction": "Écris un poème sur l'océan.",
    "input": "",
    "output": "Les vagues dansent sous la lune argentée..."
}

# Alpaca avec contexte complexe
{
    "instruction": "Corrige les erreurs de ce code Python.",
    "input": "def calculer(x y):\n    return x + y",
    "output": "def calculer(x, y):\n    return x + y"
}

2. Format ShareGPT (Conversationnel)

Format ShareGPT: Format multi-tours idéal pour les chatbots. Permet de modéliser des dialogues complexes avec contexte.

# Format ShareGPT (multi-turn conversation)
{
    "conversations": [
        {
            "from": "human",
            "value": "Comment installer Python sur Windows?"
        },
        {
            "from": "gpt",
            "value": "Voici les étapes:\n1. Télécharge Python depuis python.org\n2. Lance l'installeur\n3. Coche 'Add to PATH'\n4. Clique Install"
        },
        {
            "from": "human",
            "value": "Et comment vérifier que ça marche?"
        },
        {
            "from": "gpt",
            "value": "Ouvre un terminal et tape:\npython --version\nTu devrais voir le numéro de version s'afficher."
        }
    ]
}

3. Format JSONL (OpenAI/Hugging Face)

# Format JSONL (1 exemple par ligne)
# Utilisé par OpenAI API et Hugging Face
{"messages": [{"role": "system", "content": "Tu es un assistant juridique."}, {"role": "user", "content": "Qu'est-ce qu'un bail commercial?"}, {"role": "assistant", "content": "Un bail commercial est un contrat de location d'un local destiné à l'exercice d'une activité commerciale, industrielle ou artisanale."}]}
{"messages": [{"role": "system", "content": "Tu es un assistant juridique."}, {"role": "user", "content": "Durée minimale d'un bail commercial?"}, {"role": "assistant", "content": "La durée minimale d'un bail commercial est de 9 ans en France, avec possibilité de résiliation triennale pour le locataire."}]}
{"messages": [{"role": "system", "content": "Tu es un assistant juridique."}, {"role": "user", "content": "Qu'est-ce que le droit au renouvellement?"}, {"role": "assistant", "content": "Le droit au renouvellement (aussi appelé propriété commerciale) permet au locataire de renouveler son bail à l'expiration, sauf motifs graves ou indemnité d'éviction."}]}

Critères de Qualité des Données

Critère	Description	Objectif	Comment Mesurer
Pertinence	Alignement avec cas d'usage	100%	Review manuelle d'échantillon
Qualité linguistique	Grammaire, orthographe, style	> 95%	LanguageTool, review humaine
Diversité	Variété de formulations	High	Analyse n-grams, perplexité
Longueur appropriée	Ni trop court ni trop long	50-500 tokens	Distribution des longueurs
Balance des classes	Équilibre entre catégories	Ratio 1:3 max	Comptage par catégorie
Pas de contamination	Pas de données de test	0%	Hash matching
Annotations cohérentes	Accord inter-annotateurs	> 90% (Kappa)	Cohen's Kappa

Volume de Données Requis

Type de Fine-Tuning     Volume Minimum    Volume Optimal
─────────────────────────────────────────────────────────
Style/Tone              100-300           1,000-5,000
Simple Instructions     500-1,000         5,000-10,000
Domain Adaptation       1,000-5,000       10,000-50,000
Complex Reasoning       5,000-10,000      50,000-100,000
Continued Pre-Training  100,000+          1M-10M tokens

Attention au Overfitting: Avec moins de 500 exemples, le modèle risque de mémoriser plutôt que généraliser. Utilisez une validation set (10-20%) et surveillez la divergence train/val loss.

Pipeline de Préparation des Données

# Pipeline complet de préparation de données pour fine-tuning
import json
import re
from collections import Counter
from datasets import Dataset, load_dataset
import numpy as np

class DatasetPreparator:
    def __init__(self, min_length=10, max_length=2048):
        self.min_length = min_length
        self.max_length = max_length
        self.stats = {}

    def clean_text(self, text):
        """Nettoie le texte"""
        # Supprimer espaces multiples
        text = re.sub(r'\s+', ' ', text)
        # Supprimer caractères de contrôle
        text = ''.join(char for char in text if ord(char) >= 32 or char == '\n')
        return text.strip()

    def filter_by_length(self, examples):
        """Filtre par longueur de tokens"""
        return (
            len(examples['input'].split()) >= self.min_length and
            len(examples['output'].split()) <= self.max_length
        )

    def detect_duplicates(self, dataset):
        """Détecte et supprime les doublons"""
        seen = set()
        unique_indices = []

        for idx, example in enumerate(dataset):
            # Hash de l'input+output
            content_hash = hash(example['input'] + example['output'])
            if content_hash not in seen:
                seen.add(content_hash)
                unique_indices.append(idx)

        print(f"Doublons supprimés: {len(dataset) - len(unique_indices)}")
        return dataset.select(unique_indices)

    def balance_dataset(self, dataset, category_field='category', max_ratio=3.0):
        """Équilibre le dataset par catégorie"""
        categories = Counter([ex[category_field] for ex in dataset])
        min_count = min(categories.values())
        max_count = int(min_count * max_ratio)

        balanced_indices = []
        category_counts = {cat: 0 for cat in categories}

        for idx, example in enumerate(dataset):
            cat = example[category_field]
            if category_counts[cat] < max_count:
                balanced_indices.append(idx)
                category_counts[cat] += 1

        print(f"Dataset équilibré: {len(dataset)} → {len(balanced_indices)}")
        return dataset.select(balanced_indices)

    def convert_to_alpaca(self, raw_data):
        """Convertit données brutes en format Alpaca"""
        alpaca_data = []

        for item in raw_data:
            alpaca_data.append({
                "instruction": item.get("instruction", ""),
                "input": item.get("input", ""),
                "output": item.get("output", "")
            })

        return alpaca_data

    def create_train_val_split(self, dataset, val_size=0.1, seed=42):
        """Crée split train/validation"""
        dataset = dataset.shuffle(seed=seed)
        split = dataset.train_test_split(test_size=val_size, seed=seed)
        return split['train'], split['test']

    def analyze_dataset(self, dataset):
        """Analyse statistique du dataset"""
        input_lengths = [len(ex['input'].split()) for ex in dataset]
        output_lengths = [len(ex['output'].split()) for ex in dataset]

        stats = {
            "total_examples": len(dataset),
            "avg_input_length": np.mean(input_lengths),
            "avg_output_length": np.mean(output_lengths),
            "max_input_length": max(input_lengths),
            "max_output_length": max(output_lengths),
            "min_input_length": min(input_lengths),
            "min_output_length": min(output_lengths)
        }

        print("\n=== Statistiques du Dataset ===")
        for key, value in stats.items():
            print(f"{key}: {value:.2f}" if isinstance(value, float) else f"{key}: {value}")

        return stats

    def save_dataset(self, dataset, output_path, format='jsonl'):
        """Sauvegarde le dataset"""
        if format == 'jsonl':
            with open(output_path, 'w', encoding='utf-8') as f:
                for example in dataset:
                    f.write(json.dumps(example, ensure_ascii=False) + '\n')
        elif format == 'json':
            with open(output_path, 'w', encoding='utf-8') as f:
                json.dump(list(dataset), f, ensure_ascii=False, indent=2)

        print(f"Dataset sauvegardé: {output_path}")

# Exemple d'utilisation
preparator = DatasetPreparator()

# 1. Charger données brutes
raw_data = [
    {"instruction": "Traduis en anglais", "input": "Bonjour", "output": "Hello"},
    {"instruction": "Traduis en anglais", "input": "Au revoir", "output": "Goodbye"},
    # ... plus de données
]

# 2. Nettoyer
cleaned_data = [
    {
        "instruction": preparator.clean_text(ex["instruction"]),
        "input": preparator.clean_text(ex["input"]),
        "output": preparator.clean_text(ex["output"])
    }
    for ex in raw_data
]

# 3. Convertir en Dataset Hugging Face
dataset = Dataset.from_list(cleaned_data)

# 4. Supprimer doublons
dataset = preparator.detect_duplicates(dataset)

# 5. Filtrer par longueur
dataset = dataset.filter(preparator.filter_by_length)

# 6. Analyser
stats = preparator.analyze_dataset(dataset)

# 7. Split train/val
train_ds, val_ds = preparator.create_train_val_split(dataset, val_size=0.1)

# 8. Sauvegarder
preparator.save_dataset(train_ds, "train.jsonl")
preparator.save_dataset(val_ds, "val.jsonl")

Augmentation de Données

Techniques d'Augmentation: Quand vous manquez de données, l'augmentation peut aider. Mais attention: la qualité prime toujours sur la quantité.

# Techniques d'augmentation de données pour fine-tuning
from openai import OpenAI
import random

client = OpenAI()

def paraphrase_instruction(instruction):
    """Génère des paraphrases d'instructions"""
    prompt = f"""Génère 3 paraphrases différentes de cette instruction, en gardant exactement le même sens:

Instruction originale: {instruction}

Réponds avec 3 lignes, une paraphrase par ligne."""

    response = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[{"role": "user", "content": prompt}],
        temperature=0.7
    )

    paraphrases = response.choices[0].message.content.strip().split('\n')
    return [p.strip('123456789.- ') for p in paraphrases]

def augment_with_synonyms(text, ratio=0.15):
    """Remplace certains mots par synonymes"""
    # Nécessite nltk et wordnet
    from nltk.corpus import wordnet
    import nltk

    words = text.split()
    num_replacements = int(len(words) * ratio)
    indices = random.sample(range(len(words)), min(num_replacements, len(words)))

    for idx in indices:
        synsets = wordnet.synsets(words[idx], lang='fra')
        if synsets:
            synonyms = [lemma.name() for syn in synsets for lemma in syn.lemmas('fra')]
            if synonyms:
                words[idx] = random.choice(synonyms)

    return ' '.join(words)

def back_translation(text, intermediate_lang='en'):
    """Traduction aller-retour pour variation"""
    # Traduit fr → en → fr pour créer variation naturelle

    # fr → en
    response1 = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[{"role": "user", "content": f"Translate to English: {text}"}],
        temperature=0.3
    )
    english = response1.choices[0].message.content

    # en → fr
    response2 = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[{"role": "user", "content": f"Translate to French: {english}"}],
        temperature=0.3
    )

    return response2.choices[0].message.content

# Exemple d'augmentation
original = {
    "instruction": "Résume ce texte en 2 phrases.",
    "input": "L'intelligence artificielle révolutionne...",
    "output": "L'IA transforme l'économie. Son impact est mondial."
}

# Générer 3 variantes
augmented_examples = []
paraphrases = paraphrase_instruction(original["instruction"])

for para in paraphrases:
    augmented_examples.append({
        "instruction": para,
        "input": original["input"],
        "output": original["output"]
    })

print(f"Dataset augmenté: 1 → {len(augmented_examples) + 1} exemples")

Attention à l'Augmentation: L'augmentation peut introduire du bruit. Validez toujours manuellement un échantillon (10%) des données augmentées. L'augmentation ne remplace JAMAIS de vraies données de qualité.

Validation et Contrôle Qualité

Checklist de Qualité avant Fine-Tuning

1. Volume

Au moins 500 exemples pour fine-tuning simple
10-20% réservés pour validation
Exemples couvrant tous les cas d'usage

2. Qualité

Pas d'erreurs grammaticales majeures
Pas de données sensibles (RGPD)
Cohérence des annotations
Pas de biais évidents

3. Format

Format cohérent (Alpaca/ShareGPT/JSONL)
Encodage UTF-8
Pas de champs vides critiques
Longueurs appropriées (< max_seq_length)

4. Distribution

Balance entre catégories acceptable (ratio < 1:3)
Diversité de formulations
Pas de duplication excessive

Conseil du Mentor (30 ans d'expérience): J'ai vu plus d'échecs de fine-tuning dus à la mauvaise qualité des données qu'à des problèmes d'hyperparamètres. Passez 50% de votre temps sur la préparation des données. Ma règle: si vous n'êtes pas prêt à lire manuellement les 100 premiers exemples et valider leur qualité, votre dataset n'est pas prêt. Un modèle fine-tuné sur 500 exemples parfaits battra toujours un modèle sur 5000 exemples médiocres.

Points Clés à Retenir

Format Alpaca pour instructions simples, ShareGPT pour conversations
Qualité > Quantité: 500 exemples parfaits > 5000 moyens
Toujours split train/val (80/20 ou 90/10)
Nettoyer, dédupliquer, équilibrer avant d'entraîner
Analyser statistiquement avant de lancer le fine-tuning
L'augmentation peut aider mais ne remplace pas vraies données

Supervised Fine-Tuning (SFT)

Le Supervised Fine-Tuning (SFT) est la méthode fondamentale pour adapter un LLM pré-entraîné à vos tâches spécifiques. Contrairement au pré-entraînement qui apprend des patterns linguistiques généraux, le SFT enseigne au modèle à suivre des instructions précises.

Objectifs de la Leçon

Comprendre la différence entre pre-training et fine-tuning
Maîtriser les hyperparamètres critiques du SFT
Détecter et éviter l'overfitting
Implémenter un pipeline SFT complet

Pre-Training vs Fine-Tuning

┌─────────────────────────────────────────────────────────────┐
│               PHASE 1: PRE-TRAINING                         │
│                                                               │
│  Données: Billions de tokens (web, livres, code)            │
│  Objectif: Apprendre la langue, le monde, le raisonnement   │
│  Coût: $1-10M, des milliers de GPUs, plusieurs semaines     │
│                                                               │
│              GPT, Llama, Mistral sont créés ici             │
└─────────────────────────────────────────────────────────────┘
                            ↓
┌─────────────────────────────────────────────────────────────┐
│            PHASE 2: SUPERVISED FINE-TUNING (SFT)            │
│                                                               │
│  Données: Milliers d'exemples d'instructions                │
│  Objectif: Apprendre à suivre instructions utilisateur      │
│  Coût: $100-1000, 1-4 GPUs, quelques heures                 │
│                                                               │
│         Votre modèle spécialisé est créé ici                │
└─────────────────────────────────────────────────────────────┘
                            ↓
┌─────────────────────────────────────────────────────────────┐
│         PHASE 3: ALIGNMENT (DPO/RLHF) - Optionnel          │
│                                                               │
│  Données: Préférences humaines (A vs B)                     │
│  Objectif: Aligner sur valeurs, sécurité, style             │
│  Coût: $500-5000, 1-8 GPUs, quelques jours                  │
└─────────────────────────────────────────────────────────────┘

Analogie: Le pre-training est comme apprendre à un enfant à lire et comprendre le monde (10+ années). Le fine-tuning est comme lui enseigner un métier spécifique (quelques mois). Vous ne refaites pas l'éducation complète, vous spécialisez.

Fonctionnement du SFT

Le SFT utilise la cross-entropy loss pour rapprocher les prédictions du modèle des réponses désirées:

# Processus de SFT simplifié

1. Input: [INST] Résume ce texte: "L'IA transforme..." [/INST]
2. Target: "L'IA révolutionne l'économie mondiale"

3. Forward pass: Modèle génère tokens un par un
   Prédiction: "L'" → "IA" → "révolutionne" → ...

4. Loss calculation: Compare prédiction vs target
   Loss = -log P(token_correct | contexte)

5. Backward pass: Ajuste les poids pour réduire loss

6. Répéter sur tout le dataset (epoch)

7. Évaluation sur validation set:
   - Si val_loss continue de baisser → continuer
   - Si val_loss augmente → STOP (overfitting!)

Hyperparamètres Critiques

Paramètre	Valeur Typique	Impact	Comment Ajuster
Learning Rate	2e-5 à 5e-5	Vitesse d'apprentissage	Trop haut → instabilité, trop bas → apprentissage lent
Batch Size	4-32 (selon GPU)	Stabilité et vitesse	Plus grand = plus stable mais plus de VRAM
Epochs	1-5	Nombre de passes	Plus = risque overfitting, surveiller val_loss
Max Seq Length	512-2048	Contexte maximum	Plus long = plus de VRAM, adapter à vos données
Warmup Steps	10% des steps	Stabilité initiale	Augmente progressivement le LR au début
Weight Decay	0.01	Régularisation	Évite overfitting, pénalise gros poids
Gradient Accumulation	2-8	Batch size virtuel	Permet grand batch sur petit GPU

Implémentation SFT avec Hugging Face

# Pipeline SFT complet avec Hugging Face Transformers
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    TrainingArguments,
    Trainer,
    DataCollatorForLanguageModeling
)
from datasets import load_dataset
import torch

# 1. Charger le modèle base et tokenizer
model_name = "mistralai/Mistral-7B-v0.1"

tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token  # Mistral n'a pas de pad_token par défaut

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,  # Précision mixte pour économiser VRAM
    device_map="auto"  # Distribution automatique sur GPUs disponibles
)

# 2. Charger et préparer le dataset
dataset = load_dataset("json", data_files={"train": "train.jsonl", "validation": "val.jsonl"})

def format_instruction(example):
    """Formate en template Mistral"""
    instruction = example['instruction']
    input_text = example['input']
    output = example['output']

    # Template Mistral
    if input_text:
        prompt = f"[INST] {instruction}\n{input_text} [/INST]"
    else:
        prompt = f"[INST] {instruction} [/INST]"

    full_text = f"{prompt} {output}{tokenizer.eos_token}"
    return {"text": full_text}

# Appliquer le formattage
dataset = dataset.map(format_instruction, remove_columns=dataset["train"].column_names)

def tokenize_function(examples):
    """Tokenize les exemples"""
    return tokenizer(
        examples["text"],
        truncation=True,
        max_length=512,
        padding="max_length"
    )

tokenized_dataset = dataset.map(
    tokenize_function,
    batched=True,
    remove_columns=["text"]
)

# 3. Configurer les arguments d'entraînement
training_args = TrainingArguments(
    output_dir="./mistral-7b-finetuned",

    # Hyperparamètres d'entraînement
    num_train_epochs=3,
    per_device_train_batch_size=4,  # Adapter selon votre GPU
    per_device_eval_batch_size=4,
    gradient_accumulation_steps=4,  # Batch size effectif = 4*4 = 16

    # Learning rate et schedule
    learning_rate=2e-5,
    lr_scheduler_type="cosine",
    warmup_steps=100,

    # Régularisation
    weight_decay=0.01,
    max_grad_norm=1.0,  # Gradient clipping

    # Optimisations
    bf16=True,  # Mixed precision training
    tf32=True,  # TensorFloat-32 sur Ampere GPUs

    # Logging et évaluation
    logging_steps=10,
    eval_strategy="steps",
    eval_steps=100,
    save_strategy="steps",
    save_steps=100,
    save_total_limit=3,  # Garde seulement les 3 meilleurs checkpoints

    # Early stopping
    load_best_model_at_end=True,
    metric_for_best_model="eval_loss",
    greater_is_better=False,

    # Reporting
    report_to="wandb",  # Intégration Weights & Biases
    run_name="mistral-7b-sft",
)

# 4. Data collator pour causal LM
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False  # Pas de masked language modeling, on fait du causal LM
)

# 5. Créer le Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset["validation"],
    data_collator=data_collator,
)

# 6. Lancer l'entraînement
print("🚀 Début du fine-tuning...")
trainer.train()

# 7. Sauvegarder le modèle final
trainer.save_model("./mistral-7b-finetuned-final")
tokenizer.save_pretrained("./mistral-7b-finetuned-final")

print("✅ Fine-tuning terminé !")

Détecter et Éviter l'Overfitting

Overfitting: Le modèle mémorise les exemples d'entraînement au lieu de généraliser. Il performe parfaitement sur le train set mais mal sur de nouvelles données.

Loss
 │
 │  Train Loss
 │  ──────────────────────────────────  ← Continue de baisser
 │                ╲
 │                 ╲
 │                  ╲___________________
 │                   ╱
 │                  ╱  Validation Loss
 │                 ╱   ← Remonte = OVERFITTING!
 │                ╱
 │  ─────────────╱
 │
 └─────────────────────────────────────→ Epochs
     1        2        3        4        5

    OPTIMAL STOP: Epoch 2 (quand val_loss commence à remonter)

Techniques Anti-Overfitting

Technique	Description	Implémentation
Early Stopping	Arrêter quand val_loss remonte	load_best_model_at_end=True
Dropout	Désactiver aléatoirement des neurones	Généralement déjà dans le modèle
Weight Decay	Pénaliser les poids trop grands	weight_decay=0.01
Data Augmentation	Augmenter diversité des données	Paraphrases, back-translation
Moins d'Epochs	Ne pas sur-entraîner	1-3 epochs suffisent souvent
Plus de Données	Meilleure généralisation	Collecter plus d'exemples

Surveillance de l'Entraînement

# Callbacks personnalisés pour monitoring avancé
from transformers import TrainerCallback
import wandb

class DetailedLoggingCallback(TrainerCallback):
    """Callback pour logging détaillé"""

    def on_log(self, args, state, control, logs=None, **kwargs):
        """Appelé à chaque logging step"""
        if logs:
            # Calculer métriques custom
            if "loss" in logs:
                perplexity = torch.exp(torch.tensor(logs["loss"]))
                logs["perplexity"] = perplexity.item()

            # Log vers W&B
            wandb.log(logs)

    def on_evaluate(self, args, state, control, metrics=None, **kwargs):
        """Appelé après chaque évaluation"""
        if metrics:
            train_loss = state.log_history[-1].get("loss", 0)
            eval_loss = metrics.get("eval_loss", 0)

            # Détecter overfitting
            if eval_loss > train_loss * 1.5:
                print("⚠️  WARNING: Possible overfitting détecté!")
                print(f"   Train loss: {train_loss:.4f}")
                print(f"   Eval loss: {eval_loss:.4f}")

# Ajouter le callback au Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset["validation"],
    callbacks=[DetailedLoggingCallback()]
)

Évaluation Post-Training

# Évaluer le modèle fine-tuné
from transformers import pipeline

# Charger le modèle fine-tuné
generator = pipeline(
    "text-generation",
    model="./mistral-7b-finetuned-final",
    tokenizer=tokenizer,
    device=0
)

# Tests qualitatifs
test_prompts = [
    "[INST] Résume ce texte en une phrase: L'intelligence artificielle transforme de nombreux secteurs économiques... [/INST]",
    "[INST] Corrige cette phrase: Il vont à la plage demain. [/INST]",
    "[INST] Explique la photosynthèse en termes simples. [/INST]"
]

print("=== Évaluation Qualitative ===\n")
for prompt in test_prompts:
    output = generator(
        prompt,
        max_new_tokens=150,
        do_sample=True,
        temperature=0.7,
        top_p=0.9
    )

    generated = output[0]['generated_text'][len(prompt):]
    print(f"Prompt: {prompt[:50]}...")
    print(f"Réponse: {generated}\n")
    print("-" * 80 + "\n")

# Métriques quantitatives
from datasets import load_metric

# Perplexité sur test set
def compute_perplexity(model, test_dataset):
    model.eval()
    total_loss = 0
    total_tokens = 0

    with torch.no_grad():
        for batch in test_dataset:
            outputs = model(**batch)
            loss = outputs.loss
            total_loss += loss.item() * batch['input_ids'].size(0)
            total_tokens += batch['input_ids'].size(0)

    avg_loss = total_loss / total_tokens
    perplexity = torch.exp(torch.tensor(avg_loss))
    return perplexity.item()

test_perplexity = compute_perplexity(model, test_dataloader)
print(f"Test Perplexity: {test_perplexity:.2f}")

Conseil du Mentor (30 ans d'expérience): Le SFT est un art autant qu'une science. J'ai vu des équipes gaspiller des milliers d'euros de GPU en entraînant trop longtemps. Ma règle: commencez par 1 epoch sur un petit subset (10% des données), validez que ça apprend, puis scalez. Surveillez la val_loss comme le lait sur le feu: dès qu'elle remonte, arrêtez. Et rappelez-vous: un bon dataset battra toujours des hyperparamètres optimaux sur un mauvais dataset.

Checklist avant de Lancer un SFT

Données

Dataset nettoyé et formaté correctement
Split train/val créé (80/20 ou 90/10)
Au moins 500 exemples de qualité
Longueurs vérifiées (< max_seq_length)

Infrastructure

GPU avec VRAM suffisante (16GB+ pour 7B)
Espace disque (50GB+ pour checkpoints)
Monitoring configuré (W&B ou Tensorboard)

Configuration

Learning rate conservateur (2e-5)
Batch size adapté à votre GPU
Early stopping activé
Gradient checkpointing si VRAM limité

Points Clés à Retenir

SFT adapte un modèle pré-entraîné à vos instructions
Learning rate critique: 2e-5 à 5e-5 typiquement
1-3 epochs suffisent souvent, plus = risque overfitting
Surveillez val_loss: si remonte, arrêtez immédiatement
Early stopping et weight decay sont vos amis
Évaluez qualitativement ET quantitativement

PEFT: Parameter-Efficient Fine-Tuning

Fine-tuner tous les paramètres d'un LLM de 7B (7 milliards de paramètres) nécessite énormément de VRAM et est coûteux. PEFT propose des méthodes pour fine-tuner efficacement en ne modifiant qu'une petite fraction des paramètres.

Objectifs de la Leçon

Comprendre pourquoi PEFT est révolutionnaire
Maîtriser les différentes approches PEFT
Comparer Full Fine-Tuning vs PEFT
Choisir la méthode PEFT adaptée à son cas

Le Problème du Full Fine-Tuning

Modèle	Paramètres	VRAM (Full FT)	VRAM (LoRA)	Ratio
Llama 2 7B	7B	80 GB	24 GB	3.3x
Llama 2 13B	13B	160 GB	40 GB	4x
Llama 2 70B	70B	800 GB	160 GB	5x
Mixtral 8x7B	47B	600 GB	120 GB	5x

Problème: Full fine-tuning d'un modèle 7B nécessite 80GB de VRAM (GPU A100 80GB coûte $2-3/heure). PEFT réduit cela à 24GB (RTX 3090/4090 suffit, 10x moins cher).

Taxonomie des Méthodes PEFT

                    PEFT Methods
                         │
        ┌────────────────┼────────────────┐
        │                │                │
    Additive        Selective          Reparameterization
    Methods         Methods               Methods
        │                │                    │
        ├─ Adapters      ├─ BitFit            ├─ LoRA
        ├─ Prompt        ├─ Diff Pruning      ├─ AdaLoRA
        │  Tuning        └─ IA³               ├─ QLoRA
        └─ Prefix                             └─ DoRA
           Tuning

Most Popular: LoRA / QLoRA (90% des cas d'usage)

LoRA: Low-Rank Adaptation

Idée Centrale de LoRA: Au lieu de mettre à jour la matrice de poids complète W (énorme), on ajoute deux petites matrices A et B telles que ΔW = BA. On entraîne seulement A et B (1% des paramètres).

Full Fine-Tuning:
┌─────────────────────────────────────┐
│   W [4096 x 4096] - TOUS les poids │
│   mis à jour pendant l'entraînement │
│                                     │
│   VRAM: 80GB                        │
│   Trainable: 7B params              │
└─────────────────────────────────────┘

LoRA:
┌─────────────────────────────────────┐
│   W [4096 x 4096] ← FROZEN          │
│             +                       │
│   A [4096 x 8] × B [8 x 4096]       │
│   ↑ Seulement ces matrices          │
│      sont entraînées                │
│                                     │
│   VRAM: 24GB                        │
│   Trainable: 16M params (0.2%)      │
└─────────────────────────────────────┘

h = W₀x + BAx
    ↑       ↑
  Frozen  Trained

Comparaison Détaillée Full FT vs PEFT

Critère	Full Fine-Tuning	LoRA	QLoRA
Paramètres entraînés	100% (7B)	0.1-1% (7M-70M)	0.1-1% (7M-70M)
VRAM (7B model)	80 GB	24 GB	12 GB
Vitesse training	1x baseline	0.8-1x	0.5-0.7x
Taille checkpoint	14 GB	10-50 MB	10-50 MB
Performance	100% (référence)	95-99%	95-98%
Coût GPU/heure	$2-3 (A100 80GB)	$0.30-0.50 (RTX 3090)	$0.30-0.50 (RTX 3090)
Merge possible?	N/A	Oui (W + BA)	Oui (après dequant)
Multi-task?	Non (1 modèle = 1 tâche)	Oui (swap adapters)	Oui (swap adapters)

Les Différentes Méthodes PEFT

1. Adapters

Ajoutent de petites couches après chaque transformer layer.

Transformer Layer
    │
    ├─ Self-Attention
    │      │
    │      ├─ [NEW] Adapter (down-project → ReLU → up-project)
    │      │
    ├─ Feed-Forward
    │      │
    │      └─ [NEW] Adapter
    │
    Output

Avantage: Modularité (swap adapters)
Inconvénient: Latence d'inférence (couches supplémentaires)

2. Prefix Tuning

Ajoute des "virtual tokens" appris en début de séquence.

Input: [P1] [P2] [P3] ... [P10] [INST] Votre prompt [/INST]
       ↑                   ↑
  Prefixes appris (frozen après training)

Avantage: Pas de modification de l'architecture
Inconvénient: Réduit la longueur de contexte disponible

3. LoRA (Low-Rank Adaptation)

Méthode la plus populaire: ajoute des matrices low-rank en parallèle.

4. QLoRA (Quantized LoRA)

Combine LoRA + quantization 4-bit pour réduire encore plus la VRAM.

Recommandation 2026: Pour 90% des cas, utilisez QLoRA. C'est le meilleur ratio performance/coût/facilité. LoRA standard si vous avez un GPU puissant et voulez 2% de performance supplémentaire.

Implémentation PEFT avec Hugging Face

# PEFT avec la bibliothèque peft de Hugging Face
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments
from peft import LoraConfig, get_peft_model, TaskType, prepare_model_for_kbit_training
from trl import SFTTrainer
import torch

# 1. Charger le modèle base en 4-bit (QLoRA)
from transformers import BitsAndBytesConfig

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,  # Double quantization
    bnb_4bit_quant_type="nf4",  # NormalFloat4
    bnb_4bit_compute_dtype=torch.bfloat16
)

model = AutoModelForCausalLM.from_pretrained(
    "mistralai/Mistral-7B-v0.1",
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True
)

tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-v0.1")
tokenizer.pad_token = tokenizer.eos_token

# 2. Préparer le modèle pour PEFT
model = prepare_model_for_kbit_training(model)

# 3. Configurer LoRA
lora_config = LoraConfig(
    r=16,  # Rank: 8, 16, 32, 64 (plus grand = plus de params)
    lora_alpha=32,  # Scaling factor (généralement 2*r)
    target_modules=[  # Modules à adapter
        "q_proj",  # Query projection
        "k_proj",  # Key projection
        "v_proj",  # Value projection
        "o_proj",  # Output projection
        # "gate_proj",  # Optionnel: FFN gates
        # "up_proj",    # Optionnel: FFN up
        # "down_proj",  # Optionnel: FFN down
    ],
    lora_dropout=0.05,  # Dropout pour régularisation
    bias="none",  # Ne pas entraîner les bias
    task_type=TaskType.CAUSAL_LM
)

# 4. Appliquer PEFT au modèle
model = get_peft_model(model, lora_config)

# Afficher les paramètres entraînables
model.print_trainable_parameters()
# Output: trainable params: 16,777,216 || all params: 7,016,308,736 || trainable: 0.24%

# 5. Configurer l'entraînement
training_args = TrainingArguments(
    output_dir="./mistral-7b-qlora",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    learning_rate=2e-4,  # LoRA peut supporter LR plus élevé
    bf16=True,
    logging_steps=10,
    save_strategy="epoch",
    optim="paged_adamw_8bit",  # Optimiseur 8-bit pour QLoRA
)

# 6. Créer le trainer (avec TRL pour simplifier)
trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset["train"],
    tokenizer=tokenizer,
    max_seq_length=512,
    packing=False,  # Pack multiple sequences in one sample
)

# 7. Entraîner
trainer.train()

# 8. Sauvegarder seulement les adapters LoRA (50MB vs 14GB!)
model.save_pretrained("./mistral-7b-qlora-adapter")
tokenizer.save_pretrained("./mistral-7b-qlora-adapter")

print("✅ Adapter LoRA sauvegardé (taille: ~50MB)")

Charger et Utiliser un Modèle PEFT

# Méthode 1: Charger base + adapter (pour multi-task)
from peft import PeftModel

base_model = AutoModelForCausalLM.from_pretrained(
    "mistralai/Mistral-7B-v0.1",
    device_map="auto",
    torch_dtype=torch.bfloat16
)

# Charger l'adapter LoRA
model = PeftModel.from_pretrained(
    base_model,
    "./mistral-7b-qlora-adapter"
)

# Méthode 2: Merger l'adapter dans le modèle base (production)
model = model.merge_and_unload()

# Maintenant le modèle est un modèle standard (pas besoin de PEFT)
model.save_pretrained("./mistral-7b-merged")

# Méthode 3: Swap d'adapters pour multi-task
# Charger adapter juridique
model.load_adapter("./adapters/juridique", adapter_name="juridique")
# Charger adapter médical
model.load_adapter("./adapters/medical", adapter_name="medical")

# Utiliser l'adapter juridique
model.set_adapter("juridique")
output = model.generate(...)

# Changer pour adapter médical
model.set_adapter("medical")
output = model.generate(...)

Autres Méthodes PEFT Avancées

AdaLoRA (Adaptive LoRA)

Adapte le rank dynamiquement selon l'importance de chaque module.

DoRA (Weight-Decomposed LoRA)

Décompose en magnitude et direction pour meilleure performance.

IA³ (Infused Adapter by Inhibiting and Amplifying)

Encore plus efficient: multiplie par des vecteurs appris (0.01% params).

# Exemple: Configurer IA³ (ultra-efficient)
from peft import IA3Config

ia3_config = IA3Config(
    task_type=TaskType.CAUSAL_LM,
    target_modules=["k_proj", "v_proj", "down_proj"],
    feedforward_modules=["down_proj"]
)

model = get_peft_model(model, ia3_config)
model.print_trainable_parameters()
# trainable params: 2,359,296 || all params: 7,002,359,296 || trainable: 0.03%
# 10x moins que LoRA!

Quand Utiliser Quelle Méthode?

Situation	Méthode Recommandée	Raison
GPU Consumer (12-24GB)	QLoRA	Meilleur ratio VRAM/performance
GPU Pro (40-80GB)	LoRA	Plus rapide que QLoRA, bonne perf
Multi-tâches (swap adapters)	LoRA/QLoRA	Facile à swap, petits fichiers
Performance maximale	Full Fine-Tuning	Si budget illimité
Extrême efficacité	IA³	0.01% params, mais perf -5%
Prompt engineering avancé	Prefix Tuning	Pas de modification architecture

Conseil du Mentor (30 ans d'expérience): PEFT a révolutionné le fine-tuning. En 2021, fine-tuner GPT-3 nécessitait OpenAI. En 2026, vous fine-tunez Llama 70B sur votre RTX 4090. LoRA/QLoRA représentent 95% des fine-tunings modernes. Mon workflow: commencez QLoRA rank=8, si perf insuffisante → rank=16, si encore insuffisant → rank=32, et seulement si vraiment nécessaire → Full FT. Dans 90% des cas, QLoRA rank=16 suffit et coûte 10x moins cher.

Points Clés à Retenir

PEFT réduit la VRAM de 3-5x et les coûts de 10x
LoRA/QLoRA sont les méthodes dominantes (90% des cas)
QLoRA = LoRA + quantization 4-bit (meilleur pour GPUs consumer)
Performance PEFT = 95-99% du Full FT pour 0.1-1% des paramètres
Adapters LoRA: 10-50MB vs 14GB pour modèle complet
Possibilité de swap adapters pour multi-tâches
Rank LoRA: commencer avec 8-16, augmenter si nécessaire

LoRA en Détail

LoRA (Low-Rank Adaptation) est la technique PEFT la plus populaire en 2026. Comprendre ses mécanismes internes, ses hyperparamètres et comment l'optimiser est essentiel pour un fine-tuning efficace.

Objectifs de la Leçon

Comprendre la décomposition low-rank et pourquoi elle fonctionne
Maîtriser les hyperparamètres: rank, alpha, target modules
Apprendre à merger des adapters LoRA
Optimiser LoRA pour différents cas d'usage

La Mathématique de LoRA

Principe Fondamental: LoRA repose sur l'hypothèse que les changements de poids pendant le fine-tuning ont une structure "low-rank" (faible rang). Au lieu de modifier W directement, on ajoute ΔW = BA où B et A sont de petites matrices.

Matrice de Poids Originale (FROZEN):
W₀ ∈ ℝ^(d×k)    [4096 × 4096]
├─────────────────────────────────┐
│ ████████████████████████████████│
│ ████████████████████████████████│
│ ████████████████████████████████│
│ ████████████████████████████████│  16,777,216 paramètres
│ ████████████████████████████████│  → GELÉS (pas d'entraînement)
└─────────────────────────────────┘

Décomposition LoRA (TRAINABLE):
ΔW = B × A
     ↓   ↓
B ∈ ℝ^(d×r)  [4096 × 8]     A ∈ ℝ^(r×k)  [8 × 4096]
┌────┐                       ┌─────────────────────┐
│ ██ │                       │ ██████████████████  │
│ ██ │    ×                  └─────────────────────┘
│ ██ │
│ ██ │                       32,768 + 32,768 = 65,536 paramètres
└────┘                       → 0.4% du total!

Forward Pass:
h = W₀x + ΔWx = W₀x + B(Ax)
    ↑           ↑
  Frozen    Trainable

Les Hyperparamètres LoRA

1. Rank (r) - Le Plus Important

Le rank contrôle la "capacité" de l'adapter. Plus il est élevé, plus l'adapter peut capturer de complexité.

Rank	Paramètres (7B)	Performance	Cas d'Usage
r = 4	~8M	85-90%	Changement de style simple
r = 8	~16M	90-95%	Fine-tuning standard, bon équilibre
r = 16	~32M	95-97%	Tâches complexes, recommandé
r = 32	~64M	97-99%	Maximum de performance PEFT
r = 64	~128M	98-99%	Rarement nécessaire, risque overfitting

Règle d'Or: Commencez avec r=8. Si performance insuffisante après 1 epoch, essayez r=16. Seulement si vraiment nécessaire, passez à r=32. Au-delà, considérez le full fine-tuning.

2. Alpha (α) - Le Scaling Factor

Alpha contrôle l'importance de l'adapter dans le résultat final. La formule complète de LoRA est:

h = W₀x + (α/r) × B × A × x

Où:
- α (alpha): scaling factor (hyperparamètre)
- r (rank): dimension de la décomposition
- α/r: facteur de normalisation final

Convention courante: α = 2r
- Si r=8  → α=16
- Si r=16 → α=32
- Si r=32 → α=64

Attention: Un alpha trop élevé peut déstabiliser l'entraînement. Un alpha trop faible rend l'adapter inefficace. La règle α=2r est un bon point de départ testé empiriquement.

3. Target Modules - Où Appliquer LoRA?

On peut appliquer LoRA à différentes parties du transformer:

Modules	Description	Impact	Paramètres
q_proj, k_proj, v_proj	Projections d'attention	Essentiel, toujours inclure	~75% des gains
o_proj	Output projection	Important, recommandé	+10% gains
gate_proj, up_proj, down_proj	Feed-Forward Network	Optionnel, pour tâches complexes	+5-10% gains mais 2x paramètres

# Configuration LoRA - Différents niveaux

# MINIMAL (plus économique, rapide)
target_modules = ["q_proj", "v_proj"]
# Paramètres: ~10M pour r=8
# Performance: 85-90%

# STANDARD (recommandé pour la plupart des cas)
target_modules = ["q_proj", "k_proj", "v_proj", "o_proj"]
# Paramètres: ~16M pour r=8
# Performance: 90-95%

# COMPLET (maximum de performance)
target_modules = [
    "q_proj", "k_proj", "v_proj", "o_proj",  # Attention
    "gate_proj", "up_proj", "down_proj"       # FFN
]
# Paramètres: ~32M pour r=8
# Performance: 95-98%

# CUSTOM (adapter selon architecture)
# Pour Llama/Mistral:
target_modules = ["q_proj", "k_proj", "v_proj", "o_proj"]

# Pour GPT-2/GPT-Neo:
target_modules = ["c_attn", "c_proj"]

# Pour T5:
target_modules = ["q", "k", "v", "o"]

Implémentation LoRA Optimale

from peft import LoraConfig, get_peft_model
from transformers import AutoModelForCausalLM
import torch

# Charger le modèle base
model = AutoModelForCausalLM.from_pretrained(
    "mistralai/Mistral-7B-v0.1",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# Configuration LoRA optimale pour tâche complexe
lora_config = LoraConfig(
    # Rank et Alpha
    r=16,                    # Rank: 16 pour bon équilibre
    lora_alpha=32,           # Alpha = 2*r (convention)

    # Target modules (standard pour Llama/Mistral)
    target_modules=[
        "q_proj",   # Query projection
        "k_proj",   # Key projection
        "v_proj",   # Value projection
        "o_proj",   # Output projection
        # Décommenter pour tâches très complexes:
        # "gate_proj",
        # "up_proj",
        # "down_proj"
    ],

    # Dropout pour régularisation
    lora_dropout=0.05,       # 5% dropout, évite overfitting

    # Bias
    bias="none",             # "none" | "all" | "lora_only"

    # Type de tâche
    task_type="CAUSAL_LM",

    # Paramètres avancés
    fan_in_fan_out=False,    # False pour la plupart des modèles
    init_lora_weights=True,  # Initialisation Kaiming
)

# Appliquer LoRA
model = get_peft_model(model, lora_config)

# Vérifier les paramètres
model.print_trainable_parameters()
# Exemple output:
# trainable params: 33,554,432 || all params: 7,033,554,432 || trainable: 0.48%

# Afficher détails
for name, param in model.named_parameters():
    if param.requires_grad:
        print(f"{name}: {param.shape}")
# Output:
# base_model.model.layers.0.self_attn.q_proj.lora_A.weight: torch.Size([16, 4096])
# base_model.model.layers.0.self_attn.q_proj.lora_B.weight: torch.Size([4096, 16])
# ...

Merger des Adapters LoRA

Une fois l'entraînement terminé, vous pouvez merger l'adapter dans le modèle base pour simplifier le déploiement.

from peft import PeftModel
from transformers import AutoModelForCausalLM

# 1. Charger le modèle base
base_model = AutoModelForCausalLM.from_pretrained(
    "mistralai/Mistral-7B-v0.1",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# 2. Charger l'adapter LoRA
model = PeftModel.from_pretrained(
    base_model,
    "./mistral-lora-adapter",
    torch_dtype=torch.bfloat16
)

# 3. Merger l'adapter dans le modèle
# Opération: W_new = W₀ + (α/r) × B × A
merged_model = model.merge_and_unload()

# 4. Sauvegarder le modèle mergé
merged_model.save_pretrained("./mistral-merged")
tokenizer.save_pretrained("./mistral-merged")

print("✅ Modèle mergé sauvegardé!")
print("Taille: ~14GB (vs ~50MB pour l'adapter seul)")

# Le modèle mergé peut maintenant être utilisé comme n'importe quel modèle
# Plus besoin de charger l'adapter séparément

Avantages/Inconvénients du Merge

Aspect	Adapter Séparé	Modèle Mergé
Taille fichier	50 MB	14 GB
Déploiement	2 fichiers (base + adapter)	1 fichier
Multi-tâches	Facile (swap adapters)	Impossible
Vitesse inférence	Légèrement plus lent	Optimal
Stockage	Économique (1 base + N adapters)	Coûteux (N modèles complets)

Conseil du Mentor (30 ans d'expérience): En production, gardez les adapters séparés pendant la phase de test A/B. Une fois le modèle validé et stable, mergez pour simplifier le déploiement. Si vous avez plusieurs tâches (chatbot + extraction + résumé), gardez absolument les adapters séparés et swappez selon la tâche. J'ai vu une équipe économiser 80% de VRAM en mutualisant un modèle base avec 12 adapters différents.

LoRA Avancé: Techniques d'Optimisation

1. LoRA par Couche (Layer-wise LoRA)

Appliquer des ranks différents selon les couches:

# Rang différent par couche
# Intuition: premières couches (features bas niveau) → rank faible
#           dernières couches (sémantique) → rank élevé

from peft import LoraConfig

# Création manuelle avec rangs variables
# Couches 0-15: r=8
# Couches 16-31: r=16

configs = []
for layer_idx in range(32):
    rank = 8 if layer_idx < 16 else 16
    configs.append({
        f"layers.{layer_idx}.self_attn.q_proj": {"r": rank, "lora_alpha": rank*2},
        f"layers.{layer_idx}.self_attn.v_proj": {"r": rank, "lora_alpha": rank*2},
    })

# Note: Nécessite implémentation custom ou utilisation d'AdaLoRA

2. Quantization-Aware LoRA (QLoRA)

Sera détaillé dans la leçon suivante (Lesson 5).

3. DoRA (Weight-Decomposed LoRA)

Décompose en magnitude et direction pour meilleure performance:

# DoRA: décompose W = m × d
# Où m (magnitude) et d (direction) sont entraînés séparément

from peft import LoraConfig

lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
    use_dora=True,  # Active DoRA
    lora_dropout=0.05
)

# DoRA améliore généralement de 1-2% la performance pour ~10% de paramètres en plus

Debugging et Optimisation LoRA

Checklist de Troubleshooting

Problème: Le modèle n'apprend pas (loss ne baisse pas)

Vérifier learning rate: augmenter à 2e-4 ou 3e-4 (LoRA supporte LR plus élevé)
Vérifier target_modules: inclure au minimum q_proj, k_proj, v_proj
Augmenter le rank: passer de r=8 à r=16
Vérifier les données: qualité et format

Problème: Overfitting rapide (train loss ↓, val loss ↑)

Réduire le rank: passer de r=16 à r=8
Augmenter lora_dropout: passer de 0.05 à 0.1
Réduire les epochs: 1-2 epochs suffisent souvent
Augmenter le dataset (data augmentation)

Problème: Résultats incohérents

Vérifier alpha: devrait être ~2*rank
Vérifier l'initialisation: init_lora_weights=True
Réduire temperature lors de l'inférence
Augmenter le nombre d'exemples d'entraînement

Analyse Comparative: Impact des Hyperparamètres

Performance vs Rank (sur dataset medical, 5000 exemples)

Performance (%)
100│                                    ┌─Full FT
   │                               ┌────┘
 95│                          ┌────┘
   │                     ┌────┘
 90│                ┌────┘       LoRA
   │           ┌────┘
 85│      ┌────┘
   │  ┌───┘
 80│──┘
   └────────────────────────────────────────→ Rank
     4    8    16   32   64   128  256

Sweet Spot: r=16 (95% perf, 0.5% params)

Points Clés à Retenir

LoRA décompose ΔW = BA avec B,A de petites matrices (rank r)
Rank optimal: r=8 pour débuter, r=16 pour production, r=32 si nécessaire
Alpha: généralement α=2r (règle empirique validée)
Target modules essentiels: q_proj, k_proj, v_proj, o_proj
Merger l'adapter pour production simple, garder séparé pour multi-tâches
LoRA supporte des learning rates plus élevés (2e-4 vs 2e-5)
DoRA améliore LoRA de 1-2% pour ~10% paramètres supplémentaires

QLoRA: Fine-Tuning Économique

QLoRA combine LoRA avec la quantization 4-bit pour permettre le fine-tuning de modèles massifs (70B+) sur des GPUs consumer (24GB). C'est la technique qui a démocratisé le fine-tuning en 2023-2024.

Objectifs de la Leçon

Comprendre la quantization 4-bit et NormalFloat4 (NF4)
Maîtriser la double quantization pour économie VRAM maximale
Implémenter QLoRA avec bitsandbytes
Fine-tuner un modèle 70B sur 24GB de VRAM

Le Problème que QLoRA Résout

Evolution de la VRAM Requise pour Fine-Tuner Llama 70B:

Full Fine-Tuning (2022):
╔══════════════════════════════════════╗
║  800 GB VRAM                         ║
║  8x A100 80GB = $24/heure           ║
║  Coût: $500-2000 par run            ║
╚══════════════════════════════════════╝
Impossible pour 99% des gens

LoRA (2023):
╔══════════════════════════╗
║  160 GB VRAM             ║
║  2x A100 80GB = $6/h    ║
║  Coût: $100-300/run     ║
╚══════════════════════════╝
Encore cher

QLoRA (2023-2026):
╔════════════╗
║  24 GB RAM ║  ← RTX 3090/4090 suffit!
║  $0.5/h    ║     ou GRATUIT si GPU local
╚════════════╝
Accessible à tous! 🎉

Les 3 Innovations de QLoRA

1. 4-bit NormalFloat (NF4)

Quantization classique vs NF4: La quantization INT4 standard distribue les niveaux uniformément. NF4 distribue selon une distribution normale, optimale pour les poids de réseaux neuronaux qui suivent une distribution gaussienne.

Type	Bits	Niveaux	Distribution	Perte Qualité
FP32 (original)	32	2^32	N/A	0%
FP16	16	2^16	Uniforme	~0.1%
INT8	8	256	Uniforme	~1%
INT4	4	16	Uniforme	~5%
NF4	4	16	Normale	~1-2%

# Niveaux NF4 (optimisés pour distribution normale)
NF4_VALUES = [
    -1.0, -0.6961928009986877, -0.5250730514526367, -0.39491748809814453,
    -0.28444138169288635, -0.18477343022823334, -0.09105003625154495, 0.0,
    0.07958029955625534, 0.16093020141124725, 0.24611230194568634, 0.33791524171829224,
    0.44070982933044434, 0.5626170039176941, 0.7229568362236023, 1.0
]

Vs INT4 uniforme: [-8, -7, -6, ..., 0, ..., 6, 7]

2. Double Quantization

Pour quantizer un tenseur, on a besoin de facteurs de scaling (scale factors). QLoRA quantize aussi ces facteurs!

Quantization Simple:
W (FP32) → W_quant (NF4) + scaling_factors (FP32)
           └─4x moins ─┘   └─ Encore en 32-bit! ─┘
Économie: ~75% VRAM

Double Quantization:
W (FP32) → W_quant (NF4) + scale_quant (FP8) + scale2 (FP32)
           └─4x moins ─┘   └─ 4x moins ────┘   └─tiny─┘
Économie: ~78% VRAM (3% de plus!)

Pour un modèle 70B:
- FP32: 280 GB
- NF4 simple: 70 GB
- NF4 double quant: 61 GB

3. Paged Optimizers

Utilise la pagination CPU↔GPU pour éviter les OOM (Out Of Memory) lors des pics de mémoire.

Implémentation QLoRA Complète

# Fine-tuning QLoRA complet d'un modèle 70B sur 24GB
import torch
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments
)
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from trl import SFTTrainer
from datasets import load_dataset

# 1. Configuration de la quantization 4-bit
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,              # Active quantization 4-bit
    bnb_4bit_quant_type="nf4",      # NormalFloat4 (optimal)
    bnb_4bit_use_double_quant=True, # Double quantization (économie +3%)
    bnb_4bit_compute_dtype=torch.bfloat16,  # Compute en bfloat16
    # Optionnel: spécifier quels modules quantizer
    # llm_int8_skip_modules=["lm_head"],  # Ne pas quantizer la tête
)

# 2. Charger le modèle en 4-bit
model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-2-70b-hf",  # Modèle 70B!
    quantization_config=bnb_config,
    device_map="auto",              # Distribution automatique
    trust_remote_code=True,
    torch_dtype=torch.bfloat16
)

tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-70b-hf")
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

# 3. Préparer le modèle pour k-bit training
model.gradient_checkpointing_enable()  # Économie VRAM supplémentaire
model = prepare_model_for_kbit_training(model)

# 4. Configuration LoRA
lora_config = LoraConfig(
    r=16,                          # Rank LoRA
    lora_alpha=32,                 # Alpha (2*r)
    target_modules=[
        "q_proj", "k_proj",
        "v_proj", "o_proj",
        "gate_proj", "up_proj", "down_proj"  # Inclure FFN pour 70B
    ],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

# 5. Appliquer LoRA
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# trainable params: 167,772,160 || all params: 70,167,772,160 || trainable: 0.24%

# 6. Charger le dataset
dataset = load_dataset("json", data_files="train.jsonl", split="train")

# 7. Configuration d'entraînement optimisée pour QLoRA
training_args = TrainingArguments(
    output_dir="./llama-70b-qlora",
    num_train_epochs=1,              # 1 epoch suffit souvent
    per_device_train_batch_size=1,   # Batch size minimal sur 24GB
    gradient_accumulation_steps=16,  # Batch effectif = 16

    # Optimiseur spécial pour QLoRA
    optim="paged_adamw_8bit",        # 8-bit Adam avec paging

    # Learning rate (QLoRA supporte LR plus élevé)
    learning_rate=2e-4,
    lr_scheduler_type="cosine",
    warmup_ratio=0.03,

    # Précision et optimisations
    bf16=True,                       # BFloat16
    tf32=True,                       # TensorFloat32 (Ampere)
    gradient_checkpointing=True,     # Économie VRAM
    max_grad_norm=0.3,               # Gradient clipping

    # Logging
    logging_steps=10,
    save_strategy="steps",
    save_steps=100,

    # W&B
    report_to="wandb",
    run_name="llama-70b-qlora-medical",
)

# 8. Créer le trainer
trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=tokenizer,
    max_seq_length=2048,
    dataset_text_field="text",  # Champ contenant le texte
    packing=False,
)

# 9. Entraîner
print("🚀 Début du fine-tuning QLoRA sur Llama 70B...")
print(f"💾 VRAM utilisée: ~22-24 GB (sur 24 GB disponibles)")
trainer.train()

# 10. Sauvegarder l'adapter
model.save_pretrained("./llama-70b-qlora-adapter")
tokenizer.save_pretrained("./llama-70b-qlora-adapter")

print("✅ Fine-tuning terminé!")
print("📦 Adapter sauvegardé: ~200MB")

Analyse VRAM: Où Part la Mémoire?

Fine-Tuning Llama 70B avec QLoRA sur 24GB GPU:

┌─────────────────────────────────────────┐
│ Modèle 70B quantized (NF4)     : 16.5 GB│ ← 70B * 0.5 bytes/param
├─────────────────────────────────────────┤
│ Adapters LoRA (167M params)    :  0.3 GB│ ← Trainable weights
├─────────────────────────────────────────┤
│ Gradients LoRA                 :  0.3 GB│ ← Same size as weights
├─────────────────────────────────────────┤
│ Optimizer states (8-bit Adam)  :  1.2 GB│ ← Momentum + variance
├─────────────────────────────────────────┤
│ Activations (avec checkpointing):  3.5 GB│ ← Intermediate values
├─────────────────────────────────────────┤
│ Batch data                     :  1.0 GB│ ← Input tokens
├─────────────────────────────────────────┤
│ CUDA overhead                  :  0.7 GB│ ← Kernels, etc.
├─────────────────────────────────────────┤
│ TOTAL                          : ~23.5 GB│
└─────────────────────────────────────────┘
                          ↑
                    Tient sur RTX 3090/4090!

Sans QLoRA (FP16 + LoRA):
- Modèle: 140 GB
- Total: ~160 GB → Nécessite 2x A100 80GB ($6/h)

Économie: 7x moins de VRAM, 12x moins cher

Optimisations Avancées QLoRA

1. Gradient Checkpointing

# Gradient checkpointing: trade-off compute vs VRAM
# Recalcule les activations au lieu de les stocker

model.gradient_checkpointing_enable()

# Options avancées
from transformers import GradientCheckpointingConfig

config = GradientCheckpointingConfig(
    use_reentrant=False,  # Plus stable avec autograd
)
model.gradient_checkpointing_enable(gradient_checkpointing_kwargs=config)

# Économie: ~30-40% VRAM
# Coût: +20-30% temps d'entraînement

2. Flash Attention 2

# Flash Attention 2: attention 2-4x plus rapide et memory-efficient
# Nécessite GPU Ampere ou plus récent (RTX 30xx+)

model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-2-70b-hf",
    quantization_config=bnb_config,
    device_map="auto",
    attn_implementation="flash_attention_2",  # Active Flash Attention 2
    torch_dtype=torch.bfloat16
)

# Bénéfices:
# - 2-4x plus rapide sur longs contextes (2048+ tokens)
# - 20-30% moins de VRAM pour l'attention
# - Permet batch size plus grand ou séquences plus longues

3. LoRA+ (Learning Rate Différencié)

# LoRA+: LR différent pour matrices A et B
# Observation empirique: B bénéficie d'un LR plus élevé

from peft import LoraConfig

lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
    lora_dropout=0.05,
    use_rslora=True,  # Rank-Stabilized LoRA (améliore stabilité)
)

# Dans TrainingArguments, utiliser:
# - LR pour B: 2e-4
# - LR pour A: 2e-5 (10x plus faible)

# Implémentation custom dans optimizer_grouped_parameters:
param_groups = [
    {
        "params": [p for n, p in model.named_parameters() if "lora_B" in n],
        "lr": 2e-4,
    },
    {
        "params": [p for n, p in model.named_parameters() if "lora_A" in n],
        "lr": 2e-5,
    },
]

Benchmark: QLoRA vs LoRA vs Full FT

Métrique	Full FT	LoRA (FP16)	QLoRA (NF4)
VRAM (70B)	800 GB	160 GB	24 GB
GPU Requis	8x A100 80GB	2x A100 80GB	1x RTX 3090
Coût/heure	$24	$6	$0.50
Temps (1 epoch)	6h	7h (+15%)	10h (+40%)
Coût total	$144	$42	$5
Performance (MMLU)	100%	98.5%	97.8%
Checkpoint size	140 GB	200 MB	200 MB

Trade-off Principal: QLoRA sacrifie 2-3% de performance et 40% de vitesse pour diviser les coûts par 30x et rendre le fine-tuning accessible sur GPU consumer. Pour 95% des cas d'usage, c'est un excellent compromis.

Limitations et Quand Ne Pas Utiliser QLoRA

Évitez QLoRA si:

Vous avez accès à des GPUs pro (A100) et budget illimité → utilisez LoRA FP16
Vous avez besoin des 2-3% de performance max → Full Fine-Tuning
Le temps d'entraînement est critique → LoRA est 40% plus rapide
Vous fine-tunez des modèles petits (< 7B) → overhead de quantization inutile

Conseil du Mentor (30 ans d'expérience): QLoRA a été un game-changer en 2023. J'ai vu des doctorants fine-tuner Llama 70B sur leurs RTX 3090 personnels, créant des modèles médicaux de pointe pour $10 de GPU. Avant QLoRA, cela aurait coûté $500-1000. Ma recommandation: si vous fine-tunez un 70B, commencez TOUJOURS par QLoRA. Vous itérerez 10x plus vite qu'avec LoRA classique. Passez à LoRA FP16 seulement si les 2% de performance manquants sont critiques pour votre application.

Points Clés à Retenir

QLoRA = LoRA + quantization 4-bit NF4 + double quant + paged optimizers
Réduit la VRAM de 7x par rapport à LoRA classique
Permet fine-tuning 70B sur 24GB (RTX 3090/4090)
NF4 optimisé pour distribution normale des poids neuronaux
Double quantization économise 3% VRAM supplémentaire
Performance: ~98% du Full FT pour 0.024% du coût
Gradient checkpointing économise 30-40% VRAM (coût: +20-30% temps)
Flash Attention 2 accélère 2-4x l'attention

Hugging Face TRL & SFTTrainer

TRL (Transformer Reinforcement Learning) est la bibliothèque Hugging Face qui simplifie drastiquement le fine-tuning, le RLHF, et le DPO. SFTTrainer est son composant principal pour le supervised fine-tuning.

Objectifs de la Leçon

Maîtriser TRL et SFTTrainer pour un fine-tuning simplifié
Configurer callbacks et monitoring avec Weights & Biases
Comprendre les optimisations avancées (packing, NEFTune)
Créer un pipeline de fine-tuning production-ready

TRL: L'Écosystème Complet

TRL (Transformer Reinforcement Learning)
│
├─ SFTTrainer           → Supervised Fine-Tuning (cette leçon)
├─ DPOTrainer           → Direct Preference Optimization
├─ PPOTrainer           → Proximal Policy Optimization (RLHF)
├─ RewardTrainer        → Entraîner un reward model
├─ ORPOTrainer          → Odds Ratio Preference Optimization
└─ Utilities
   ├─ DataCollator      → Gestion des données
   ├─ Callbacks         → Monitoring et logging
   └─ Chat Templates    → Formatage des prompts

SFTTrainer: Le Fine-Tuning Simplifié

Pourquoi SFTTrainer? Remplace 200+ lignes de code boilerplate par une configuration simple. Gère automatiquement: tokenization, padding, data collation, chat templates, monitoring.

Comparaison: Vanilla Trainer vs SFTTrainer

# ❌ AVANT (Vanilla Trainer): ~200 lignes
from transformers import Trainer, AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("model")
model = AutoModelForCausalLM.from_pretrained("model")

# Manually tokenize
def tokenize_function(examples):
    # Format instruction
    texts = []
    for ex in examples:
        text = f"[INST] {ex['instruction']} [/INST] {ex['output']}"
        texts.append(text)

    # Tokenize
    tokenized = tokenizer(
        texts,
        truncation=True,
        padding="max_length",
        max_length=512
    )
    tokenized["labels"] = tokenized["input_ids"].copy()
    return tokenized

tokenized_dataset = dataset.map(tokenize_function, batched=True)

# Manual data collator
from transformers import DataCollatorForLanguageModeling
data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)

# Create trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
    data_collator=data_collator,
)

trainer.train()

# ✅ APRÈS (SFTTrainer): ~20 lignes
from trl import SFTTrainer

trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset,  # Dataset brut, pas tokenisé!
    tokenizer=tokenizer,
    max_seq_length=512,
    dataset_text_field="text",  # ou formatting_func
)

trainer.train()

# SFTTrainer gère TOUT automatiquement! 🎉

Pipeline Complet avec SFTTrainer

# Pipeline de fine-tuning production avec TRL
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, BitsAndBytesConfig
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from trl import SFTTrainer, DataCollatorForCompletionOnlyLM
from datasets import load_dataset
import wandb

# 1. Initialiser Weights & Biases
wandb.init(
    project="llm-fine-tuning",
    name="mistral-7b-medical-sft",
    config={
        "model": "mistralai/Mistral-7B-v0.1",
        "dataset": "medical-instructions",
        "method": "QLoRA + SFT"
    }
)

# 2. Configuration quantization
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=torch.bfloat16
)

# 3. Charger modèle et tokenizer
model = AutoModelForCausalLM.from_pretrained(
    "mistralai/Mistral-7B-v0.1",
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True
)

tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-v0.1")
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

# 4. Préparer pour PEFT
model.gradient_checkpointing_enable()
model = prepare_model_for_kbit_training(model)

# 5. Configuration LoRA
lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

model = get_peft_model(model, lora_config)

# 6. Charger le dataset
dataset = load_dataset("json", data_files={
    "train": "train.jsonl",
    "validation": "val.jsonl"
})

# 7. Fonction de formatting (convertit les exemples en texte)
def formatting_func(example):
    """
    Formate chaque exemple en texte prêt pour le training.
    Gère le format Alpaca avec instruction/input/output.
    """
    instruction = example["instruction"]
    input_text = example.get("input", "")
    output = example["output"]

    # Template Mistral
    if input_text:
        text = f"[INST] {instruction}\n{input_text} [/INST] {output}{tokenizer.eos_token}"
    else:
        text = f"[INST] {instruction} [/INST] {output}{tokenizer.eos_token}"

    return text

# 8. Configuration d'entraînement
training_args = TrainingArguments(
    output_dir="./mistral-medical-sft",

    # Epochs et batch
    num_train_epochs=3,
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    gradient_accumulation_steps=4,

    # Learning rate
    learning_rate=2e-4,
    lr_scheduler_type="cosine",
    warmup_ratio=0.03,

    # Optimisations
    optim="paged_adamw_8bit",
    bf16=True,
    tf32=True,
    gradient_checkpointing=True,
    max_grad_norm=0.3,

    # Logging et évaluation
    logging_steps=10,
    logging_first_step=True,
    eval_strategy="steps",
    eval_steps=100,
    save_strategy="steps",
    save_steps=100,
    save_total_limit=3,

    # W&B
    report_to="wandb",

    # Early stopping
    load_best_model_at_end=True,
    metric_for_best_model="eval_loss",
)

# 9. Data collator pour completion-only (ne calcule loss que sur la réponse)
response_template = " [/INST] "
collator = DataCollatorForCompletionOnlyLM(
    response_template=response_template,
    tokenizer=tokenizer
)

# 10. Créer SFTTrainer
trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset["train"],
    eval_dataset=dataset["validation"],
    tokenizer=tokenizer,

    # Fonction de formatting
    formatting_func=formatting_func,

    # Data collator
    data_collator=collator,

    # Paramètres SFT
    max_seq_length=1024,
    packing=False,  # Packing: pack multiple short examples

    # NEFTune (ajout de bruit pour régularisation)
    neftune_noise_alpha=5,  # Valeur typique: 5-10
)

# 11. Callbacks personnalisés
from transformers import EarlyStoppingCallback, TrainerCallback

class CustomLoggingCallback(TrainerCallback):
    def on_log(self, args, state, control, logs=None, **kwargs):
        if logs:
            # Log métriques custom
            if "loss" in logs:
                perplexity = torch.exp(torch.tensor(logs["loss"]))
                wandb.log({"perplexity": perplexity.item()})

            # Log learning rate
            if "learning_rate" in logs:
                wandb.log({"lr": logs["learning_rate"]})

trainer.add_callback(EarlyStoppingCallback(early_stopping_patience=3))
trainer.add_callback(CustomLoggingCallback())

# 12. Entraîner!
print("🚀 Début du fine-tuning avec SFTTrainer...")
trainer.train()

# 13. Évaluer
eval_results = trainer.evaluate()
print(f"📊 Résultats finaux: {eval_results}")

# 14. Sauvegarder
trainer.save_model("./mistral-medical-final")
tokenizer.save_pretrained("./mistral-medical-final")

# Log final artifact vers W&B
wandb.save("./mistral-medical-final/*")
wandb.finish()

print("✅ Fine-tuning terminé et sauvegardé!")

Fonctionnalités Avancées de SFTTrainer

1. Packing: Optimisation pour Courtes Séquences

Packing: Si vos exemples sont courts (< 512 tokens), le padding gaspille beaucoup de compute. Le packing combine plusieurs exemples dans une seule séquence pour maximiser l'utilisation.

Sans Packing (max_seq_length=512):
[Example 1 (100 tokens)]  [PADDING............400 tokens]
[Example 2 (150 tokens)]  [PADDING............362 tokens]
[Example 3 (80 tokens)]   [PADDING............432 tokens]
→ 67% de padding waste!

Avec Packing:
[Ex1 (100)] [Ex2 (150)] [Ex3 (80)] [Ex4 (120)] [PAD 62]
→ Seulement 12% padding!
→ 5x plus efficace en compute

# Activer le packing dans SFTTrainer
trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=tokenizer,
    max_seq_length=512,
    packing=True,  # ← Active le packing

    # Paramètres de packing
    dataset_num_proc=4,  # Parallélisation du packing
)

# Le packing est recommandé si:
# - Vos exemples font < 50% de max_seq_length
# - Vous avez beaucoup d'exemples courts
# - Vous voulez réduire le temps d'entraînement

# ATTENTION: Le packing peut légèrement réduire la performance (-1-2%)
# car le modèle voit plusieurs contextes séparés dans une séquence

2. NEFTune: Noise Embedding for Fine-Tuning

NEFTune: Ajoute du bruit uniforme aux embeddings d'entrée pendant le training. Améliore la généralisation et réduit l'overfitting de 2-5% sans coût VRAM.

# NEFTune: simple mais efficace!
trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=tokenizer,
    neftune_noise_alpha=5,  # Valeur typique: 5-15
    # Plus alpha est élevé, plus le bruit est fort
    # alpha=0: pas de NEFTune
    # alpha=5: léger bruit (recommandé)
    # alpha=15: fort bruit (domaines très spécialisés)
)

# Papier original: "NEFTune: Noisy Embeddings Improve Instruction Finetuning"
# Amélioration observée:
# - AlpacaEval: +10% win rate
# - MT-Bench: +0.3-0.5 points
# - Overfitting réduit de 20-30%

# Coût: 0% VRAM, 0% temps (bruit ajouté à la volée)

3. Completion-Only Loss

Problème: Par défaut, la loss est calculée sur TOUTE la séquence (prompt + réponse). Mais on veut que le modèle apprenne seulement à générer la réponse, pas à mémoriser le prompt.

from trl import DataCollatorForCompletionOnlyLM

# Définir le template de réponse
# Pour Mistral: la réponse commence après " [/INST] "
response_template = " [/INST] "

# Pour Llama-2-chat: la réponse commence après "[/INST]"
# response_template = "[/INST]"

# Pour ChatML: la réponse commence après "<|im_start|>assistant\n"
# response_template = "<|im_start|>assistant\n"

collator = DataCollatorForCompletionOnlyLM(
    response_template=response_template,
    tokenizer=tokenizer,
    mlm=False
)

trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=tokenizer,
    data_collator=collator,  # ← Utiliser le collator
)

# Exemple de masking:
# Input:  "[INST] Qui es-tu? [/INST] Je suis Claude, un assistant IA."
# Labels: [-100, -100, ..., -100] "Je suis Claude, un assistant IA."
#         └─ Ignoré (pas de loss) ─┘ └─ Loss calculée ici ─────────┘

# Avantage: le modèle apprend seulement à générer des réponses,
# pas à mémoriser les prompts

Monitoring avec Weights & Biases

# Configuration W&B complète
import wandb
from transformers import TrainerCallback

# 1. Initialiser W&B
wandb.init(
    project="llm-fine-tuning",
    name="mistral-medical-v1",
    tags=["qlora", "medical", "mistral-7b"],
    config={
        "model": "mistralai/Mistral-7B-v0.1",
        "lora_r": 16,
        "lora_alpha": 32,
        "learning_rate": 2e-4,
        "batch_size": 16,
        "epochs": 3,
        "dataset_size": 5000
    }
)

# 2. Callback pour logging avancé
class WandBMetricsCallback(TrainerCallback):
    def on_log(self, args, state, control, logs=None, **kwargs):
        if logs:
            # Calculer métriques additionnelles
            custom_logs = {}

            if "loss" in logs:
                custom_logs["train/perplexity"] = torch.exp(torch.tensor(logs["loss"])).item()

            if "eval_loss" in logs:
                custom_logs["eval/perplexity"] = torch.exp(torch.tensor(logs["eval_loss"])).item()

            # Ratio train/val loss (détection overfitting)
            if "loss" in logs and "eval_loss" in logs:
                ratio = logs["eval_loss"] / logs["loss"]
                custom_logs["overfitting_ratio"] = ratio

                # Alert si overfitting
                if ratio > 1.5:
                    wandb.alert(
                        title="Overfitting détecté",
                        text=f"Eval loss / Train loss = {ratio:.2f} > 1.5"
                    )

            # Log GPU metrics
            if torch.cuda.is_available():
                custom_logs["gpu/memory_allocated_gb"] = torch.cuda.memory_allocated() / 1e9
                custom_logs["gpu/memory_reserved_gb"] = torch.cuda.memory_reserved() / 1e9

            wandb.log(custom_logs)

    def on_evaluate(self, args, state, control, metrics=None, **kwargs):
        if metrics:
            # Log distribution des longueurs de génération
            # (nécessite génération d'exemples)
            pass

# 3. Ajouter le callback
trainer.add_callback(WandBMetricsCallback())

# 4. Log des exemples de génération
def log_generation_examples(model, tokenizer, n_examples=5):
    prompts = [
        "Explique la photosynthèse",
        "Qu'est-ce qu'un diabète de type 2?",
        "Liste les symptômes de la grippe"
    ]

    table = wandb.Table(columns=["Prompt", "Génération"])

    for prompt in prompts[:n_examples]:
        formatted = f"[INST] {prompt} [/INST]"
        inputs = tokenizer(formatted, return_tensors="pt").to(model.device)

        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_new_tokens=150,
                temperature=0.7,
                do_sample=True
            )

        generation = tokenizer.decode(outputs[0], skip_special_tokens=True)
        generation = generation[len(formatted):]  # Enlever le prompt

        table.add_data(prompt, generation)

    wandb.log({"generation_examples": table})

# Appeler périodiquement pendant le training
# (ex: toutes les 500 steps)

# 5. Log model artifact à la fin
trainer.train()
wandb.save("./mistral-medical-final/*")
wandb.finish()

Templates de Chat pour Différents Modèles

Modèle	Template	Response Template
Mistral/Mixtral	[INST] {prompt} [/INST]	" [/INST] "
Llama 2 Chat	[INST] {prompt} [/INST]	"[/INST]"
Llama 3 / 3.1	<\|begin_of_text\|><\|start_header_id\|>user<\|end_header_id\|>{prompt}<\|eot_id\|><\|start_header_id\|>assistant<\|end_header_id\|>	"<\|start_header_id\|>assistant<\|end_header_id\|>"
ChatML (OpenAI)	<\|im_start\|>user\n{prompt}<\|im_end\|>\n<\|im_start\|>assistant\n	"<\|im_start\|>assistant\n"
Gemma	<start_of_turn>user\n{prompt}<end_of_turn>\n<start_of_turn>model\n	"<start_of_turn>model\n"

Conseil du Mentor (30 ans d'expérience): TRL/SFTTrainer a réduit le temps de prototypage de mes fine-tunings de 2 jours à 2 heures. L'investissement dans un bon monitoring W&B se paie en 1 seul run évité (détection précoce d'overfitting). Ma config favorite: QLoRA + SFTTrainer + packing + NEFTune + W&B. Ça couvre 95% de mes besoins. Et surtout: TOUJOURS utiliser completion-only loss, sinon le modèle mémorise les prompts au lieu d'apprendre à répondre.

Points Clés à Retenir

TRL simplifie drastiquement le fine-tuning (200 lignes → 20 lignes)
SFTTrainer gère automatiquement tokenization, padding, data collation
Packing améliore l'efficacité de 5x sur courtes séquences
NEFTune réduit overfitting de 20-30% sans coût
Completion-only loss: calcule loss seulement sur la réponse
W&B essentiel pour monitoring et détection précoce de problèmes
Utiliser le bon chat template selon le modèle

Quiz Module 4.1: Fondamentaux du Fine-Tuning

Testez vos connaissances sur les fondamentaux du fine-tuning avec ce quiz de 15 questions.

DPO: Direct Preference Optimization

DPO (Direct Preference Optimization) révolutionne l'alignment des LLMs en éliminant le besoin d'un reward model séparé. C'est devenu la méthode d'alignment standard en 2024-2026.

Objectifs de la Leçon

Comprendre pourquoi DPO simplifie RLHF
Maîtriser la création de datasets de préférences
Implémenter DPO avec TRL
Comparer DPO vs RLHF en termes de coût/performance

Le Problème avec RLHF Classique

RLHF Traditionnel (2020-2023):

Phase 1: SFT             Phase 2: Reward Model    Phase 3: PPO
┌──────────┐            ┌──────────┐            ┌──────────┐
│ Base LLM │  SFT       │ RM Model │  Train     │ Policy   │  PPO
│   →      │ ────→      │ (7B)     │ ────→      │ LLM      │ ────→
│ SFT LLM  │            │ Rewards  │            │ Aligned  │
└──────────┘            └──────────┘            └──────────┘
  1 semaine               3-5 jours              1-2 semaines
                                                  + INSTABLE

Total: 3-4 semaines, 3 modèles à entraîner, PPO complexe et instable

─────────────────────────────────────────────────────────

DPO (2024-2026):

Phase 1: SFT             Phase 2: DPO
┌──────────┐            ┌──────────┐
│ Base LLM │  SFT       │ Policy   │  DPO
│   →      │ ────→      │ LLM      │ ────→  ✅ Aligned
│ SFT LLM  │            │          │
└──────────┘            └──────────┘
  1 semaine               2-3 jours

Total: 10 jours, 1 seul modèle, stable et simple

Économie: 3x plus rapide, 2x moins cher, plus stable

Comment Fonctionne DPO?

Idée Clé de DPO: Au lieu d'entraîner un reward model séparé puis optimiser avec PPO, DPO optimise directement le modèle pour préférer les bonnes réponses (chosen) aux mauvaises (rejected), en utilisant une loss binaire.

# Loss DPO (simplifié):
L_DPO = -log(σ(β * [log π_θ(y_w|x) / π_ref(y_w|x) - log π_θ(y_l|x) / π_ref(y_l|x)]))

Où:
- y_w (y_winner): réponse préférée (chosen)
- y_l (y_loser): réponse rejetée (rejected)
- π_θ: modèle en cours d'entraînement (policy)
- π_ref: modèle de référence (frozen, généralement le modèle SFT)
- β: paramètre de température (contrôle force de l'optimisation)
- σ: fonction sigmoïde

En français: "Augmente la probabilité de y_winner, réduis celle de y_loser"

Format du Dataset DPO

# Format standard pour DPO: prompt + chosen + rejected
[
    {
        "prompt": "Explique ce qu'est la photosynthèse.",
        "chosen": "La photosynthèse est le processus par lequel les plantes utilisent la lumière du soleil pour convertir le CO2 et l'eau en glucose et oxygène. C'est essentiel pour la vie sur Terre car elle produit l'oxygène que nous respirons.",
        "rejected": "La photosynthèse c'est quand les plantes mangent de la lumière."
    },
    {
        "prompt": "Quelle est la capitale de la France?",
        "chosen": "La capitale de la France est Paris.",
        "rejected": "La capitale de la France est Lyon."
    },
    {
        "prompt": "Tu es un assistant IA. Un utilisateur te demande de l'aide pour pirater un compte. Comment réponds-tu?",
        "chosen": "Je ne peux pas et ne dois pas aider avec des activités illégales comme le piratage. C'est illégal et contraire à l'éthique. Puis-je vous aider avec quelque chose de légal?",
        "rejected": "Voici comment pirater un compte: [instructions malveillantes]"
    }
]

# Format alternatif avec messages (pour conversations)
[
    {
        "prompt": [
            {"role": "user", "content": "Comment faire un gâteau?"}
        ],
        "chosen": [
            {"role": "assistant", "content": "Pour faire un gâteau simple: mélangez 200g farine, 150g sucre, 3 œufs, 100g beurre. Cuire 30min à 180°C."}
        ],
        "rejected": [
            {"role": "assistant", "content": "Achète-en un au supermarché."}
        ]
    }
]

Créer un Dataset de Préférences

Méthode 1: Annotation Humaine

# Processus d'annotation humaine
import json
from collections import defaultdict

def create_preference_dataset_ui():
    """
    Interface simple pour annoter des préférences.
    En production, utiliser Argilla, Label Studio, ou AWS SageMaker Ground Truth.
    """
    prompts = [
        "Explique la relativité générale",
        "Comment réparer une fuite d'eau?",
        "Quelle est la différence entre Python et Java?"
    ]

    # Générer 2 réponses par prompt avec le modèle base
    dataset = []

    for prompt in prompts:
        # Générer response A (temperature=0.7)
        response_a = generate(model, prompt, temperature=0.7)

        # Générer response B (temperature=1.0, différente)
        response_b = generate(model, prompt, temperature=1.0)

        # Afficher pour annotation
        print(f"\nPrompt: {prompt}\n")
        print(f"[A] {response_a}\n")
        print(f"[B] {response_b}\n")

        choice = input("Quelle réponse préférez-vous? (A/B/E pour égales): ").upper()

        if choice == "A":
            dataset.append({
                "prompt": prompt,
                "chosen": response_a,
                "rejected": response_b
            })
        elif choice == "B":
            dataset.append({
                "prompt": prompt,
                "chosen": response_b,
                "rejected": response_a
            })
        # Si E (égales), on skip

    # Sauvegarder
    with open("preference_dataset.json", "w") as f:
        json.dump(dataset, f, indent=2, ensure_ascii=False)

    return dataset

# En production: besoin de 1,000-10,000 paires annotées
# Coût humain: $0.10-0.50 par paire → $100-5000 total

Méthode 2: LLM-as-Judge (Synthétique)

# Génération synthétique de préférences avec GPT-4
from openai import OpenAI

client = OpenAI()

def create_synthetic_preference(prompt, response_a, response_b):
    """
    Utilise GPT-4 comme juge pour déterminer quelle réponse est meilleure.
    """
    judge_prompt = f"""Évalue ces deux réponses à la question:

Question: {prompt}

Réponse A:
{response_a}

Réponse B:
{response_b}

Quelle réponse est meilleure? Considère: précision, clarté, utilité, style.
Réponds seulement par "A", "B", ou "EQUAL".

Meilleure réponse:"""

    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": judge_prompt}],
        temperature=0.3,
        max_tokens=5
    )

    choice = response.choices[0].message.content.strip()

    if choice == "A":
        return {"prompt": prompt, "chosen": response_a, "rejected": response_b}
    elif choice == "B":
        return {"prompt": prompt, "chosen": response_b, "rejected": response_a}
    else:
        return None  # Skip si égales

# Processus complet
dataset = []
for prompt in prompts:
    # Générer 2 variantes
    resp_a = generate_with_model_a(prompt)
    resp_b = generate_with_model_b(prompt)

    # Juger
    pref = create_synthetic_preference(prompt, resp_a, resp_b)
    if pref:
        dataset.append(pref)

# Avantage: scalable, pas besoin d'annotateurs humains
# Inconvénient: biais du juge (GPT-4), moins fiable que humain
# Coût: $0.01-0.05 par paire (100x moins cher que humain)

Implémentation DPO avec TRL

# Pipeline DPO complet avec TRL
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments
from trl import DPOTrainer
from datasets import load_dataset
from peft import LoraConfig, get_peft_model

# 1. Charger le modèle SFT (déjà fine-tuné)
model = AutoModelForCausalLM.from_pretrained(
    "./mistral-7b-sft",  # Modèle après SFT
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# Modèle de référence (frozen, pour calculer π_ref)
model_ref = AutoModelForCausalLM.from_pretrained(
    "./mistral-7b-sft",  # Même modèle, sera frozen
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

tokenizer = AutoTokenizer.from_pretrained("./mistral-7b-sft")
tokenizer.pad_token = tokenizer.eos_token

# 2. Charger dataset de préférences
dataset = load_dataset("json", data_files={
    "train": "preferences_train.json",
    "validation": "preferences_val.json"
})

# 3. Optionnel: Ajouter LoRA pour économiser VRAM
lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)
model = get_peft_model(model, lora_config)

# 4. Configuration d'entraînement DPO
training_args = TrainingArguments(
    output_dir="./mistral-7b-dpo",
    num_train_epochs=1,  # DPO: 1 epoch suffit généralement
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    gradient_accumulation_steps=4,

    learning_rate=5e-7,  # DPO: LR beaucoup plus faible que SFT
    lr_scheduler_type="cosine",
    warmup_ratio=0.1,

    bf16=True,
    logging_steps=10,
    eval_strategy="steps",
    eval_steps=100,
    save_strategy="steps",
    save_steps=100,

    report_to="wandb",
)

# 5. Créer DPOTrainer
dpo_trainer = DPOTrainer(
    model=model,
    ref_model=model_ref,  # Modèle de référence (frozen)
    args=training_args,
    train_dataset=dataset["train"],
    eval_dataset=dataset["validation"],
    tokenizer=tokenizer,

    # Hyperparamètres DPO
    beta=0.1,  # Température DPO (0.1-0.5, défaut: 0.1)
                # Plus beta est élevé, plus l'optimisation est agressive

    max_length=1024,  # Longueur max des séquences
    max_prompt_length=512,  # Longueur max du prompt
)

# 6. Entraîner
print("🚀 Début de l'entraînement DPO...")
dpo_trainer.train()

# 7. Sauvegarder
dpo_trainer.save_model("./mistral-7b-dpo-final")
tokenizer.save_pretrained("./mistral-7b-dpo-final")

print("✅ DPO terminé!")

Hyperparamètre Critique: Beta (β)

Beta	Effet	Cas d'Usage
0.01-0.05	Optimisation très douce	Préférences subtiles
0.1 (défaut)	Équilibre optimal	Cas standard
0.2-0.3	Optimisation agressive	Préférences fortes
0.5+	Très agressif, risque instabilité	Rarement recommandé

DPO vs RLHF: Comparaison

Critère	RLHF (PPO)	DPO
Modèles à entraîner	3 (SFT + RM + Policy)	1 (Policy seulement)
Temps total	3-4 semaines	10 jours
Stabilité	Instable (PPO difficile)	Très stable
VRAM	2x (policy + ref + RM)	2x (policy + ref)
Complexité code	Élevée (PPO complexe)	Faible (simple loss)
Performance	Excellent si bien tuné	Excellent, plus simple
Data requis	10k+ comparaisons	1k-10k comparaisons

Recommandation 2026: Utilisez DPO pour 95% des cas. RLHF/PPO seulement si vous avez des contraintes très spécifiques ou une équipe ML Research dédiée. DPO a remplacé RLHF comme méthode standard chez OpenAI, Anthropic, Meta pour leurs derniers modèles.

Évaluation Post-DPO

# Évaluer l'amélioration après DPO
from transformers import pipeline

model_sft = pipeline("text-generation", model="./mistral-7b-sft")
model_dpo = pipeline("text-generation", model="./mistral-7b-dpo-final")

test_prompts = [
    "Explique-moi la relativité générale simplement.",
    "Comment cuisiner un steak parfait?",
    "Tu es un assistant IA. Aide-moi à tricher à un examen."
]

print("=== Comparaison SFT vs DPO ===\n")

for prompt in test_prompts:
    print(f"Prompt: {prompt}\n")

    # SFT
    sft_out = model_sft(prompt, max_new_tokens=150, do_sample=True, temperature=0.7)[0]['generated_text']
    print(f"[SFT] {sft_out}\n")

    # DPO
    dpo_out = model_dpo(prompt, max_new_tokens=150, do_sample=True, temperature=0.7)[0]['generated_text']
    print(f"[DPO] {dpo_out}\n")

    print("-" * 80 + "\n")

# Observations typiques après DPO:
# - Réponses plus naturelles et fluides
# - Meilleur refus des requêtes dangereuses/illégales
# - Style plus cohérent avec préférences humaines
# - Réduction des hallucinations (si dataset contient ce type de préférences)

Conseil du Mentor (30 ans d'expérience): DPO a été LE breakthrough de 2023 en alignment. J'ai migré tous mes pipelines RLHF vers DPO et divisé les délais par 3, les coûts par 2, et éliminé 90% des problèmes de convergence. Mon workflow: SFT d'abord (1 semaine), puis DPO (2-3 jours). Pour le dataset, commencez avec 1000 paires synthétiques (GPT-4 comme juge), validez sur 100 paires humaines. Si résultats satisfaisants, scalez. La qualité des préférences compte 10x plus que la quantité.

Points Clés à Retenir

DPO élimine le besoin d'un reward model et de PPO
3x plus rapide et 2x moins cher que RLHF classique
Dataset: paires (prompt, chosen, rejected), 1k-10k exemples
Beta = 0.1 par défaut, ajuster selon force des préférences
Learning rate très faible (5e-7) comparé à SFT
1 epoch suffit généralement, plus = risque overfitting
DPO est devenu le standard en 2024-2026

RLHF en Pratique

Bien que DPO ait largement remplacé RLHF, comprendre RLHF (Reinforcement Learning from Human Feedback) reste important pour certains cas avancés et pour comprendre l'historique des techniques d'alignment qui ont permis la création de ChatGPT.

Objectifs de la Leçon

Comprendre l'architecture complète RLHF en 3 phases
Maîtriser l'entraînement d'un Reward Model
Implémenter PPO pour l'alignment avec TRL
Identifier les complexités et limitations de RLHF

Les 3 Phases de RLHF

Architecture RLHF Complète (InstructGPT / ChatGPT):

Phase 1: Supervised Fine-Tuning (SFT)
┌────────────────────────────────────────────────────────┐
│  GPT-3 Base  →  SFT Dataset  →  GPT-3 Instruct        │
│  (175B)         (13k prompts)    (peut suivre ordres)  │
└────────────────────────────────────────────────────────┘
           1 semaine, 16 epochs, LR=1e-5

Phase 2: Reward Model Training
┌────────────────────────────────────────────────────────┐
│  Prompt  →  4-9 completions  →  Humain rank  →  RM    │
│  "Bonjour"   [A B C D...]        A>B>C>D       (6B)    │
│  33k prompts, 200k+ comparaisons                       │
└────────────────────────────────────────────────────────┘
           3-5 jours, Bradley-Terry loss

Phase 3: PPO (Proximal Policy Optimization)
┌────────────────────────────────────────────────────────┐
│  Policy LLM  →  Génère  →  RM Score  →  PPO Update    │
│  (Instruct)     réponse     reward      ajuste weights │
│  31k prompts, plusieurs itérations                     │
└────────────────────────────────────────────────────────┘
           1-2 semaines, très instable

Total: 3-4 semaines, coût ~$1M pour GPT-3 scale

Phase 2: Entraîner un Reward Model

Qu'est-ce qu'un Reward Model? Un Reward Model (RM) est un modèle qui prend en entrée (prompt, completion) et retourne un score scalaire indiquant la qualité de la réponse. Il est entraîné sur des préférences humaines pour prédire quelle réponse les humains préféreraient.

Format du Dataset pour Reward Model

# Dataset de préférences pour RM
[
    {
        "prompt": "Explique la photosynthèse en termes simples.",
        "responses": [
            {
                "text": "La photosynthèse est le processus par lequel les plantes convertissent la lumière du soleil, l'eau et le CO2 en glucose et oxygène.",
                "rank": 1  # Meilleure réponse
            },
            {
                "text": "C'est quand les plantes utilisent le soleil pour faire de la nourriture.",
                "rank": 2  # Acceptable mais moins détaillée
            },
            {
                "text": "Les plantes mangent de la lumière.",
                "rank": 3  # Mauvaise réponse
            }
        ]
    }
]

# Format alternatif: pairwise comparisons
[
    {
        "prompt": "Comment faire cuire des pâtes?",
        "chosen": "Porter l'eau à ébullition, ajouter du sel, cuire 8-10 min selon type de pâtes.",
        "rejected": "Mettre les pâtes dans l'eau froide et chauffer."
    }
]

# InstructGPT: 33k prompts × 4-9 réponses = ~200k comparaisons
# Coût annotation: $0.50 par ranking → $16k total

Implémentation du Reward Model

# Entraîner un Reward Model avec TRL
import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer, TrainingArguments
from trl import RewardTrainer
from datasets import load_dataset

# 1. Architecture du Reward Model
# Base: Même architecture que le modèle SFT, mais avec une tête de regression
model = AutoModelForSequenceClassification.from_pretrained(
    "mistralai/Mistral-7B-Instruct-v0.2",
    num_labels=1,  # Sortie scalaire (reward score)
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-Instruct-v0.2")
tokenizer.pad_token = tokenizer.eos_token

# 2. Préparer le dataset
def prepare_reward_dataset(examples):
    """
    Transforme les paires chosen/rejected en format pour RewardTrainer
    """
    chosen_inputs = tokenizer(
        [p + c for p, c in zip(examples["prompt"], examples["chosen"])],
        padding="max_length",
        max_length=512,
        truncation=True,
        return_tensors="pt"
    )

    rejected_inputs = tokenizer(
        [p + r for p, r in zip(examples["prompt"], examples["rejected"])],
        padding="max_length",
        max_length=512,
        truncation=True,
        return_tensors="pt"
    )

    return {
        "input_ids_chosen": chosen_inputs["input_ids"],
        "attention_mask_chosen": chosen_inputs["attention_mask"],
        "input_ids_rejected": rejected_inputs["input_ids"],
        "attention_mask_rejected": rejected_inputs["attention_mask"]
    }

dataset = load_dataset("json", data_files="reward_preferences.json")
dataset = dataset.map(prepare_reward_dataset, batched=True)

# 3. Loss Function: Bradley-Terry Model
# Loss = -log(σ(reward_chosen - reward_rejected))
# Pousse le RM à donner un score plus élevé à chosen qu'à rejected

training_args = TrainingArguments(
    output_dir="./reward-model",
    num_train_epochs=1,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    learning_rate=1e-5,
    bf16=True,
    logging_steps=10,
    save_strategy="epoch",
    report_to="wandb"
)

# 4. Créer le RewardTrainer
trainer = RewardTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset["train"],
    eval_dataset=dataset["validation"],
    tokenizer=tokenizer,
)

# 5. Entraîner
print("🏆 Entraînement du Reward Model...")
trainer.train()
trainer.save_model("./reward-model-final")

# 6. Tester le RM
def score_response(prompt, response):
    inputs = tokenizer(prompt + response, return_tensors="pt").to("cuda")
    with torch.no_grad():
        reward = model(**inputs).logits[0].item()
    return reward

# Test
prompt = "Quelle est la capitale de la France?"
print(score_response(prompt, "La capitale de la France est Paris."))  # ~2.3
print(score_response(prompt, "C'est Lyon."))  # ~-1.1
print(score_response(prompt, "Je ne sais pas."))  # ~-0.5

Phase 3: PPO (Proximal Policy Optimization)

PPO en une phrase: PPO optimise le modèle (policy) pour maximiser le reward du RM, tout en évitant de trop s'éloigner du modèle initial (via KL penalty) pour maintenir la stabilité.

Boucle PPO (simplifié):

1. GENERATE                  2. SCORE                3. UPDATE
┌──────────────┐           ┌──────────┐           ┌──────────┐
│ Policy LLM   │           │ Reward   │           │ PPO Loss │
│ Prompt →     │  →        │ Model    │  →        │ Gradient │
│ Generate     │  response │ Score    │  reward   │ Update   │
│ Response     │           │          │           │          │
└──────────────┘           └──────────┘           └──────────┘
                                                    ↓
                           4. REPEAT (plusieurs itérations)

PPO Loss = reward - β * KL_divergence(policy || reference)
           ↑               ↑
      maximiser        pénalité si policy s'éloigne trop

Implémentation PPO avec TRL

# Pipeline PPO complet avec TRL (très complexe!)
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import PPOTrainer, PPOConfig, AutoModelForCausalLMWithValueHead
from trl.core import LengthSampler
from datasets import load_dataset

# 1. Charger les modèles
# Policy model (sera optimisé)
model = AutoModelForCausalLMWithValueHead.from_pretrained(
    "./mistral-7b-sft",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# Reference model (frozen, pour KL penalty)
ref_model = AutoModelForCausalLM.from_pretrained(
    "./mistral-7b-sft",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# Reward model (frozen, pour scorer)
reward_model = AutoModelForSequenceClassification.from_pretrained(
    "./reward-model-final",
    num_labels=1,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

tokenizer = AutoTokenizer.from_pretrained("./mistral-7b-sft")
tokenizer.pad_token = tokenizer.eos_token

# 2. Configuration PPO
ppo_config = PPOConfig(
    model_name="mistral-7b-ppo",
    learning_rate=1.41e-5,
    batch_size=128,
    mini_batch_size=16,

    # PPO hyperparameters (très sensibles!)
    ppo_epochs=4,               # Nombre de passes sur chaque batch
    init_kl_coef=0.2,           # Coefficient KL penalty (β)
    target_kl=6.0,              # KL target (ajuste dynamiquement β)
    adap_kl_ctrl=True,          # Ajustement adaptatif de β

    cliprange=0.2,              # PPO clipping range
    vf_coef=0.1,                # Value function coefficient

    # Generation params
    generation_kwargs={
        "min_length": -1,
        "top_k": 0.0,
        "top_p": 1.0,
        "do_sample": True,
        "pad_token_id": tokenizer.eos_token_id,
        "max_new_tokens": 256
    }
)

# 3. Créer PPOTrainer
ppo_trainer = PPOTrainer(
    config=ppo_config,
    model=model,
    ref_model=ref_model,
    tokenizer=tokenizer,
)

# 4. Dataset de prompts pour PPO
dataset = load_dataset("json", data_files="ppo_prompts.json")
dataset = dataset["train"]

# 5. Boucle d'entraînement PPO
for epoch in range(3):
    for batch in ppo_trainer.dataloader:
        # Étape 1: Générer des réponses
        query_tensors = batch["input_ids"]

        response_tensors = ppo_trainer.generate(
            query_tensors,
            return_prompt=False,
            **ppo_config.generation_kwargs
        )

        batch["response"] = tokenizer.batch_decode(response_tensors)

        # Étape 2: Calculer rewards avec le RM
        texts = [q + r for q, r in zip(batch["query"], batch["response"])]
        inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt").to("cuda")

        with torch.no_grad():
            rewards = reward_model(**inputs).logits.squeeze(-1)

        # Étape 3: PPO update
        stats = ppo_trainer.step(query_tensors, response_tensors, rewards)

        # Log
        if batch_idx % 10 == 0:
            print(f"Epoch {epoch}, Batch {batch_idx}")
            print(f"  Mean reward: {rewards.mean().item():.2f}")
            print(f"  KL divergence: {stats['objective/kl']:.4f}")
            print(f"  PPO loss: {stats['ppo/loss/total']:.4f}")

# 6. Sauvegarder
ppo_trainer.save_pretrained("./mistral-7b-ppo-final")
print("✅ PPO terminé!")

Complexités et Défis de RLHF

Défi	Description	Impact
Instabilité PPO	Hyperparamètres très sensibles (KL coef, clip range)	Entraînement peut diverger ou collapser
VRAM x3	Policy + Reference + Reward Model en mémoire	Nécessite 3x la VRAM (~48GB pour 7B)
Lenteur	Génération + scoring + update à chaque step	10x plus lent que SFT standard
Reward Hacking	Le modèle apprend à "tricher" le RM	Génère du texte qui trompe le RM
3 Modèles	SFT → RM → PPO (3 entraînements successifs)	Pipeline long et coûteux
Expertise RL	Nécessite connaissance en Reinforcement Learning	Courbe d'apprentissage raide

Exemple de Reward Hacking

# Cas réel de reward hacking observé

Prompt: "Écris un résumé de cet article scientifique."

Réponse attendue (bonne):
"Cet article présente une nouvelle méthode pour... [résumé concis]"

Réponse avec reward hacking (RM score élevé mais inutile):
"Cet article est absolument fascinant et remarquablement bien écrit.
L'auteur démontre une expertise exceptionnelle dans le domaine.
Cette recherche révolutionnaire va changer notre compréhension..."
[Beaucoup de mots positifs mais pas de vraie information]

Problème: Le RM a appris que "mots positifs" = bon score
Solution: Re-entraîner le RM avec plus de diversité, ou passer à DPO

Pourquoi PPO est Difficile: PPO optimise une "moving target" (le policy change pendant l'entraînement), nécessite d'équilibrer exploration vs exploitation, et peut facilement diverger si les hyperparamètres ne sont pas parfaits. C'est pourquoi DPO a largement remplacé RLHF.

Quand Utiliser RLHF malgré tout?

Cas d'usage légitimes pour RLHF:

Reward complexe: Si votre reward nécessite du code/calculs (ex: validité syntaxique, score de jeu)
Itératif: Si vous voulez améliorer continuellement avec nouveau feedback
Multi-objectifs: Optimiser plusieurs rewards simultanément (qualité + sécurité + longueur)
Recherche: Explorer de nouvelles approches d'alignment

Pour 90% des cas: DPO est supérieur

RLHF vs DPO: Résumé Comparatif

Aspect	RLHF (PPO)	DPO	Gagnant
Nombre de phases	3 (SFT + RM + PPO)	2 (SFT + DPO)	DPO
Temps total	3-4 semaines	10 jours	DPO
Stabilité	Instable (PPO fragile)	Très stable	DPO
VRAM	3x (policy+ref+RM)	2x (policy+ref)	DPO
Complexité code	Très complexe	Simple	DPO
Performance finale	Excellent	Excellent (équivalent)	Égalité
Reward hacking	Risque élevé	Moins de risque	DPO
Flexibilité rewards	Très flexible	Limité aux préférences	RLHF

Conseil du Mentor: RLHF est fascinant d'un point de vue théorique et a permis la création de ChatGPT, mais pour vos projets en 2025-2026, commencez par DPO. C'est plus simple, plus rapide, plus stable, et donne d'aussi bons résultats. N'investissez dans RLHF que si vous avez un cas d'usage spécifique nécessitant des rewards calculés programmatiquement. Le temps gagné avec DPO peut être mieux utilisé à améliorer votre dataset ou votre évaluation.

Ressources et Papers

InstructGPT Paper (2022): "Training language models to follow instructions with human feedback" - Le paper original OpenAI
TRL Documentation: https://huggingface.co/docs/trl - PPOTrainer et RewardTrainer
Anthropic Constitutional AI: Variante de RLHF avec AI feedback au lieu de humain
DeepSpeed-Chat: Framework pour RLHF à grande échelle

ORPO, SimPO, KTO: Nouvelles Méthodes d'Alignment 2025-2026

En 2024-2025, de nouvelles méthodes d'alignment ont émergé pour surpasser DPO en efficacité et performance. ORPO, SimPO et KTO représentent la prochaine génération de techniques de fine-tuning par préférences.

Objectifs de la Leçon

Comprendre ORPO et son avantage "1-phase"
Maîtriser SimPO et l'élimination du reference model
Découvrir KTO pour l'alignment sans paires
Comparer les benchmarks 2025-2026

Évolution des Méthodes d'Alignment

Timeline des Méthodes d'Alignment:

2020-2022: RLHF/PPO
┌────────┐  ┌────────┐  ┌────────┐
│  SFT   │→ │   RM   │→ │  PPO   │  = 3 phases, complexe
└────────┘  └────────┘  └────────┘

2023-2024: DPO
┌────────┐  ┌────────┐
│  SFT   │→ │  DPO   │              = 2 phases, plus simple
└────────┘  └────────┘

2024-2025: ORPO
┌────────────┐
│ SFT + ORPO │                      = 1 phase! 🎉
└────────────┘

2025: SimPO
┌────────┐  ┌────────┐
│  SFT   │→ │ SimPO  │              = 2 phases, pas de ref model
└────────┘  └────────┘

2025: KTO
┌────────┐  ┌────────┐
│  SFT   │→ │  KTO   │              = 2 phases, pas besoin de paires
└────────┘  └────────┘

Tendance: Plus simple, plus efficace, moins de ressources

ORPO: Odds Ratio Preference Optimization

Innovation Clé de ORPO: ORPO fusionne SFT et alignment en une seule phase! Au lieu de faire SFT puis DPO, ORPO optimise simultanément la génération de texte (comme SFT) ET les préférences (comme DPO). Cela économise 50% du temps d'entraînement.

Comment Fonctionne ORPO?

# Loss ORPO (combinaison de SFT + Preference)

L_ORPO = L_SFT + λ * L_OR

Où:
L_SFT = -log P(y_chosen | x)  # Loss SFT classique sur chosen

L_OR = -log(σ(log(odds_chosen / odds_rejected)))

odds_chosen = P(y_chosen|x) / (1 - P(y_chosen|x))
odds_rejected = P(y_rejected|x) / (1 - P(y_rejected|x))

λ: coefficient de pondération (typiquement 0.1)

Intuition:
- Maximise la probabilité de la bonne réponse (SFT)
- ET augmente le ratio d'odds entre chosen/rejected (préférence)
- Tout en un seul forward pass!

Implémentation ORPO avec TRL

# ORPO avec TRL (très simple!)
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments
from trl import ORPOTrainer, ORPOConfig
from datasets import load_dataset
import torch

# 1. Charger le modèle BASE (pas besoin de SFT au préalable!)
model = AutoModelForCausalLM.from_pretrained(
    "mistralai/Mistral-7B-v0.1",  # Modèle base, pas Instruct
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-v0.1")
tokenizer.pad_token = tokenizer.eos_token

# 2. Dataset: même format que DPO (prompt, chosen, rejected)
dataset = load_dataset("json", data_files={
    "train": "orpo_data.json",
    "test": "orpo_test.json"
})

# 3. Configuration ORPO
orpo_config = ORPOConfig(
    output_dir="./mistral-7b-orpo",

    # Hyperparamètres ORPO
    beta=0.1,        # Coefficient λ (force de l'odds ratio)
                     # 0.1 = standard, 0.2 = plus agressif

    # Training args standard
    num_train_epochs=3,
    per_device_train_batch_size=2,
    gradient_accumulation_steps=8,

    learning_rate=8e-6,  # ORPO: LR légèrement plus élevé que DPO
    lr_scheduler_type="cosine",
    warmup_ratio=0.1,

    bf16=True,
    logging_steps=10,
    eval_strategy="steps",
    eval_steps=100,
    save_strategy="steps",
    save_steps=100,

    max_length=2048,
    max_prompt_length=1024,

    report_to="wandb"
)

# 4. Créer ORPOTrainer (pas besoin de ref_model!)
trainer = ORPOTrainer(
    model=model,
    args=orpo_config,
    train_dataset=dataset["train"],
    eval_dataset=dataset["test"],
    tokenizer=tokenizer,
)

# 5. Entraîner
print("🚀 Entraînement ORPO (SFT + Alignment en 1 phase)...")
trainer.train()

# 6. Sauvegarder
trainer.save_model("./mistral-7b-orpo-final")
tokenizer.save_pretrained("./mistral-7b-orpo-final")

print("✅ ORPO terminé! Modèle prêt à l'emploi.")

SimPO: Simple Preference Optimization

Innovation Clé de SimPO: SimPO élimine le besoin du reference model (π_ref) de DPO en utilisant directement la longueur de séquence comme reward implicite. Cela réduit la VRAM de 50% et accélère l'entraînement de 2x!

Différence avec DPO

# DPO Loss (nécessite ref_model)
L_DPO = -log(σ(β * [log π_θ(y_w|x)/π_ref(y_w|x) - log π_θ(y_l|x)/π_ref(y_l|x)]))
                      ^^^^^^^^              ^^^^^^^^
                    Besoin du reference model (VRAM x2)

# SimPO Loss (pas de ref_model!)
L_SimPO = -log(σ(β * [log π_θ(y_w|x) - log π_θ(y_l|x) + γ/|y_w|]))
                      ^^^^^^^^^^^^   ^^^^^^^^^^^^   ^^^
                    Juste le policy    Pas de ref   Length reward

Où:
γ: reward margin coefficient (typiquement 1.0)
|y_w|: longueur de la réponse chosen

Avantages:
✅ 50% moins de VRAM (pas de ref model)
✅ 2x plus rapide (1 seul forward pass)
✅ Performance égale ou supérieure à DPO

Implémentation SimPO

# SimPO avec TRL
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments
from trl import SimPOTrainer, SimPOConfig
from datasets import load_dataset
import torch

# 1. Charger modèle SFT
model = AutoModelForCausalLM.from_pretrained(
    "./mistral-7b-sft",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)
# NOTE: Pas de ref_model! 🎉

tokenizer = AutoTokenizer.from_pretrained("./mistral-7b-sft")
tokenizer.pad_token = tokenizer.eos_token

# 2. Dataset
dataset = load_dataset("json", data_files="preferences.json")

# 3. Configuration SimPO
simpo_config = SimPOConfig(
    output_dir="./mistral-7b-simpo",

    # Hyperparamètres SimPO
    beta=2.0,        # SimPO utilise beta plus élevé que DPO
                     # 2.0 = standard, 2.5-3.0 = plus agressif
    gamma=1.0,       # Length reward coefficient
                     # 1.0 = standard, ajuster si réponses trop courtes/longues

    # Training args
    num_train_epochs=1,
    per_device_train_batch_size=4,  # Peut doubler vs DPO (pas de ref!)
    gradient_accumulation_steps=4,

    learning_rate=5e-7,
    lr_scheduler_type="cosine",
    warmup_ratio=0.1,

    bf16=True,
    logging_steps=10,
    eval_strategy="steps",
    eval_steps=100,

    max_length=2048,
    max_prompt_length=1024,

    report_to="wandb"
)

# 4. Créer SimPOTrainer
trainer = SimPOTrainer(
    model=model,
    # ref_model=None,  # Pas besoin!
    args=simpo_config,
    train_dataset=dataset["train"],
    eval_dataset=dataset["test"],
    tokenizer=tokenizer,
)

# 5. Entraîner (2x plus rapide que DPO!)
print("🚀 Entraînement SimPO...")
trainer.train()

# 6. Sauvegarder
trainer.save_model("./mistral-7b-simpo-final")

print("✅ SimPO terminé! Moins de VRAM, plus rapide que DPO.")

KTO: Kahneman-Tversky Optimization

Innovation Clé de KTO: KTO ne nécessite PAS de paires (chosen/rejected)! Il fonctionne avec des exemples individuels étiquetés comme "bon" ou "mauvais". Cela facilite énormément la création de datasets, car trouver des paires est plus difficile que labeler individuellement.

Format du Dataset KTO

# Dataset KTO: exemples individuels avec label binaire
[
    {
        "prompt": "Explique la photosynthèse.",
        "completion": "La photosynthèse est le processus par lequel les plantes convertissent la lumière en énergie.",
        "label": true  # Bonne réponse
    },
    {
        "prompt": "Quelle est la capitale de la France?",
        "completion": "La capitale de la France est Lyon.",
        "label": false  # Mauvaise réponse
    },
    {
        "prompt": "Comment faire cuire un œuf?",
        "completion": "Portez l'eau à ébullition et plongez l'œuf pendant 10 minutes.",
        "label": true  # Bonne réponse
    }
]

# Pas besoin de paires! Beaucoup plus facile à annoter
# Un annotateur peut traiter 3x plus de données

Implémentation KTO

# KTO avec TRL
from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import KTOTrainer, KTOConfig
from datasets import load_dataset
import torch

# 1. Charger modèle
model = AutoModelForCausalLM.from_pretrained(
    "./mistral-7b-sft",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

tokenizer = AutoTokenizer.from_pretrained("./mistral-7b-sft")

# 2. Dataset KTO
dataset = load_dataset("json", data_files="kto_data.json")

# 3. Configuration KTO
kto_config = KTOConfig(
    output_dir="./mistral-7b-kto",

    # Hyperparamètres KTO
    beta=0.1,           # Coefficient KL (comme DPO)
    desirable_weight=1.0,   # Poids pour exemples positifs
    undesirable_weight=1.0, # Poids pour exemples négatifs

    # Training args
    num_train_epochs=1,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,

    learning_rate=5e-7,
    bf16=True,
    logging_steps=10,

    max_length=2048,
    max_prompt_length=1024,

    report_to="wandb"
)

# 4. Créer KTOTrainer
trainer = KTOTrainer(
    model=model,
    args=kto_config,
    train_dataset=dataset["train"],
    eval_dataset=dataset["test"],
    tokenizer=tokenizer,
)

# 5. Entraîner
print("🚀 Entraînement KTO...")
trainer.train()

# 6. Sauvegarder
trainer.save_model("./mistral-7b-kto-final")

print("✅ KTO terminé! Aligné sans besoin de paires.")

Comparaison des Méthodes

Méthode	Phases	Ref Model	Format Data	VRAM	Vitesse
RLHF	3	Oui + RM	Paires	3x	0.1x
DPO	2	Oui	Paires	2x	1x
ORPO	1 🏆	Non	Paires	1x 🏆	2x 🏆
SimPO	2	Non 🏆	Paires	1x 🏆	2x 🏆
KTO	2	Oui	Labels 🏆	2x	1x

Benchmarks 2025-2026

Benchmark	DPO	ORPO	SimPO	KTO
MT-Bench (GPT-4 Judge)	7.31	7.42	7.58	7.29
AlpacaEval 2.0	18.3%	19.1%	20.7%	17.9%
Arena-Hard	24.5	26.2	27.8	23.9
Temps entraînement (7B)	6h	3h	3h	6h
VRAM nécessaire (7B)	32 GB	16 GB	16 GB	32 GB

SimPO = Meilleure Performance en 2025: D'après les benchmarks récents, SimPO surpasse DPO sur tous les critères tout en étant 2x plus rapide et nécessitant 50% moins de VRAM. C'est le nouveau standard recommandé pour l'alignment en 2025-2026.

Guide de Sélection: Quelle Méthode Choisir?

Arbre de Décision:

Avez-vous un dataset de paires (chosen/rejected)?
│
├─ NON → KTO (fonctionne avec labels individuels)
│
└─ OUI → Voulez-vous le maximum de performance?
    │
    ├─ NON → Budget limité / modèle petit?
    │   │
    │   └─ OUI → ORPO (1 phase, simple, rapide)
    │
    └─ OUI → SimPO (meilleur benchmark 2025)
             Ou ORPO si vous partez d'un modèle base

Résumé:
• Débutant: ORPO (le plus simple)
• Performance max: SimPO
• Pas de paires: KTO
• Legacy/recherche: DPO
• À éviter: RLHF (trop complexe)

Exemple Comparatif: Fine-Tuning Llama 3 8B

# Comparaison pratique sur Llama 3 8B

Dataset: 10k paires de préférences
Hardware: 1x A100 40GB
Métrique: MT-Bench score

Méthode    | Temps  | VRAM  | Score | Complexité
-----------|--------|-------|-------|------------
DPO        | 6h     | 38GB  | 7.31  | Moyenne
ORPO       | 3h     | 22GB  | 7.42  | Faible 🏆
SimPO      | 3h     | 20GB  | 7.58  | Faible 🏆
KTO        | 6h     | 38GB  | 7.29  | Moyenne

Conclusion: SimPO = Meilleur rapport qualité/prix/temps
            ORPO = Excellent si modèle base (skip SFT)

Attention aux Hyperparamètres: Les nouvelles méthodes (ORPO/SimPO/KTO) utilisent des hyperparamètres différents de DPO. Ne copiez pas aveuglément les configs DPO! Beta pour SimPO est typiquement 2.0-3.0 (vs 0.1 pour DPO). ORPO nécessite un LR plus élevé. Consultez toujours la documentation TRL pour les valeurs recommandées.

Conseil du Mentor: L'évolution rapide des méthodes d'alignment montre que le domaine est très actif. En 2026, de nouvelles méthodes encore meilleures émergeront probablement. Mon conseil: Maîtrisez SimPO et ORPO maintenant - ce sont les méthodes les plus pratiques et performantes pour production. Mais restez à l'affût des nouveaux papers sur arXiv (sections cs.CL et cs.LG). La communauté open-source implémente généralement les nouveautés dans TRL sous 2-3 mois.

Ressources

ORPO Paper: "ORPO: Monolithic Preference Optimization" (2024)
SimPO Paper: "SimPO: Simple Preference Optimization with a Reference-Free Reward" (2024)
KTO Paper: "KTO: Model Alignment as Prospect Theoretic Optimization" (2024)
TRL Documentation: Implémentations officielles de toutes ces méthodes
Hugging Face Blog: Tutoriels et comparaisons des nouvelles méthodes

Merge de Modèles

Le model merging permet de combiner plusieurs modèles fine-tunés pour obtenir un modèle hybride qui hérite des forces de chacun. C'est une technique puissante pour créer des modèles multi-tâches sans entraînement supplémentaire!

Objectifs de la Leçon

Comprendre les principes du model merging
Maîtriser mergekit et ses méthodes (SLERP, TIES, DARE)
Implémenter des merges complexes avec passthrough
Créer des modèles hybrides performants

Pourquoi Merger des Modèles?

Cas d'Usage du Model Merging:

Multi-tâche: Combiner un modèle bon en code + un bon en math = modèle bon aux deux
Équilibrage: Merger modèle créatif + modèle factuel = équilibre créativité/précision
Ensembling: Moyenne de plusieurs fine-tunes pour robustesse
Compression: Distiller plusieurs compétences en un seul modèle

Exemple de Merge Multi-Tâche:

Modèle A: Llama-3-8B-Code        Modèle B: Llama-3-8B-Math
(expert Python, JavaScript)      (expert calcul, algèbre)
           │                                │
           └────────────┬───────────────────┘
                        │
                   MERGE (TIES)
                        │
                        ▼
            Llama-3-8B-Code-Math
         (bon en code ET en math!)

Avantages:
✅ Pas besoin de re-entraîner
✅ Combine compétences complémentaires
✅ Processus rapide (minutes vs jours)

Mergekit: L'Outil de Référence

Installation et Premiers Pas

# Installation
pip install mergekit

# Mergekit supporte:
# - Tous les modèles Hugging Face (Llama, Mistral, Qwen, etc.)
# - Plusieurs méthodes de merge (linear, SLERP, TIES, DARE, passthrough)
# - GGUF export intégré
# - CLI et Python API

Méthode 1: Linear Merge (Moyenne Pondérée)

# merge_config_linear.yml
merge_method: linear
dtype: bfloat16

models:
  - model: mistralai/Mistral-7B-v0.1
    # Modèle de base (optionnel)
    parameters:
      weight: 0.4
  - model: ./mistral-7b-code
    # Fine-tuné pour le code
    parameters:
      weight: 0.3
  - model: ./mistral-7b-chat
    # Fine-tuné pour le chat
    parameters:
      weight: 0.3

# Les poids doivent sommer à 1.0
# weight = 0.4 pour base + 0.3 + 0.3 = 1.0

# Exécuter le merge
mergekit-yaml merge_config_linear.yml ./output-merged --copy-tokenizer

Quand utiliser Linear? Méthode simple et rapide, bonne pour moyenner plusieurs fine-tunes du même modèle base. Limite: peut diluer les compétences spécialisées. Mieux pour des modèles similaires.

Méthode 2: SLERP (Spherical Linear Interpolation)

# merge_config_slerp.yml
merge_method: slerp
dtype: bfloat16

slices:
  - sources:
      - model: ./llama-3-8b-instruct
        layer_range: [0, 32]  # Toutes les couches
      - model: ./llama-3-8b-code
        layer_range: [0, 32]
    parameters:
      t: 0.5  # Facteur d'interpolation (0.0 = 100% premier, 1.0 = 100% second)

# SLERP: Interpolation le long d'une géodésique sur une sphère
# Plus "smooth" que linear, meilleure préservation des propriétés géométriques

# Exécuter
mergekit-yaml merge_config_slerp.yml ./llama3-8b-hybrid --copy-tokenizer

# Variation: gradient SLERP (t variable par couche)
slices:
  - sources:
      - model: model_a
        layer_range: [0, 32]
      - model: model_b
        layer_range: [0, 32]
    parameters:
      t:
        - filter: self_attn
          value: 0.3  # Attention: plus de model_a
        - filter: mlp
          value: 0.7  # MLP: plus de model_b
        - value: 0.5  # Défaut

Méthode 3: TIES (Trim, Elect, Merge)

TIES: La Meilleure Méthode pour Multi-Tâche TIES résout le problème d'interférence entre tâches en: 1. TRIM: Garde seulement les poids les plus importants (top-k%) 2. ELECT: Résout les conflits en votant par signe 3. MERGE: Moyenne les poids alignés

# merge_config_ties.yml
merge_method: ties
dtype: bfloat16

base_model: mistralai/Mistral-7B-v0.1  # Modèle base (référence)

models:
  - model: ./mistral-7b-code
    parameters:
      weight: 0.5
      density: 0.6  # Garde top 60% des poids importants
  - model: ./mistral-7b-math
    parameters:
      weight: 0.3
      density: 0.6
  - model: ./mistral-7b-chat
    parameters:
      weight: 0.2
      density: 0.5

# Paramètres TIES:
# - density: proportion de poids à garder (0.5-0.8 typique)
#   Plus élevé = plus de conservation des spécialisations
# - weight: importance relative de chaque modèle

# Exécuter
mergekit-yaml merge_config_ties.yml ./mistral-7b-multitask --copy-tokenizer

Comment TIES Fonctionne

TIES: Résolution d'Interférences

Exemple: Merger 3 modèles fine-tunés

Étape 1: TRIM (garde top-k% des deltas)
Model A delta:  [+2.1, -0.3, +1.5, -0.1, +0.8]  → trim 60%
                [+2.1,  0.0, +1.5,  0.0, +0.8]  (garde top 3)

Model B delta:  [-1.8, +0.5, -0.2, +1.9, -0.6]
                [-1.8,  0.0,  0.0, +1.9,  0.0]

Model C delta:  [+0.9, -1.2, +0.3, -0.7, +1.1]
                [+0.9, -1.2,  0.0,  0.0, +1.1]

Étape 2: ELECT (vote par signe)
Position 0: +2.1, -1.8, +0.9  → signe +2, -1  → ÉLIRE +
Position 1:  0.0,  0.0, -1.2  → signe  0, -1  → ÉLIRE -
Position 2: +1.5,  0.0,  0.0  → signe +1,  0  → ÉLIRE +

Étape 3: MERGE (moyenne des élus)
Position 0: moyenne(+2.1, +0.9) = +1.5  (ignore -1.8, signe opposé)
Position 1: -1.2  (seul élu)
Position 2: +1.5  (seul élu)

Final delta: [+1.5, -1.2, +1.5, +1.9, +1.1]

→ Appliqué au base_model pour obtenir le merged model

Méthode 4: DARE (Drop And REscale)

# merge_config_dare.yml
merge_method: dare_ties  # DARE + TIES = combo puissant
dtype: bfloat16

base_model: mistralai/Mistral-7B-v0.1

models:
  - model: ./mistral-7b-code
    parameters:
      weight: 0.6
      density: 0.5  # Drop 50% des poids aléatoirement
  - model: ./mistral-7b-reasoning
    parameters:
      weight: 0.4
      density: 0.5

# DARE: Dropout + Rescaling
# - Drop aléatoirement (1 - density)% des deltas
# - Rescale les poids restants pour compenser
# - Réduit l'overfitting et améliore la généralisation

# Variante: dare_linear (DARE sans TIES)
# merge_method: dare_linear

mergekit-yaml merge_config_dare.yml ./mistral-7b-dare --copy-tokenizer

Méthode	Complexité	Cas d'Usage	Performance
Linear	Simple	Modèles similaires, ensembling	Bonne
SLERP	Moyenne	2 modèles, interpolation smooth	Très bonne
TIES	Avancée	Multi-tâche, 3+ modèles	Excellente 🏆
DARE	Avancée	Généralisation, anti-overfitting	Excellente 🏆

Méthode 5: Passthrough (Frankenmerge)

Passthrough: Le "Frankenstein" des Merges Passthrough permet de prendre différentes couches de différents modèles. Par exemple: couches 0-10 du modèle A, couches 11-20 du modèle B, etc. Très expérimental mais peut donner des résultats surprenants!

# merge_config_passthrough.yml
merge_method: passthrough
dtype: bfloat16

slices:
  # Couches initiales: modèle général
  - sources:
      - model: mistralai/Mistral-7B-Instruct-v0.2
        layer_range: [0, 8]

  # Couches moyennes: modèle de raisonnement
  - sources:
      - model: ./mistral-7b-reasoning
        layer_range: [8, 24]

  # Couches finales: modèle créatif
  - sources:
      - model: ./mistral-7b-creative
        layer_range: [24, 32]

# Théorie: Différentes couches ont différents rôles
# - Early layers: features basiques
# - Middle layers: raisonnement, logique
# - Late layers: génération, style

mergekit-yaml merge_config_passthrough.yml ./mistral-franken --copy-tokenizer

Attention avec Passthrough: Passthrough est très expérimental. Les modèles doivent avoir la même architecture et dimension. Le modèle résultant peut être instable ou incohérent. Testez toujours soigneusement! C'est amusant pour expérimenter mais rarement utilisé en production.

Exemple Pratique: Créer un Modèle Code+Math

Étape 1: Identifier les modèles sources

# Sur HuggingFace Hub, chercher:
# - Base model: meta-llama/Llama-3.1-8B
# - Code expert: deepseek-ai/deepseek-coder-7b-instruct
# - Math expert: NousResearch/Hermes-2-Pro-Llama-3-8B (bon en math)

# Ou utiliser vos propres fine-tunes:
# - ./llama3-code (fine-tuné sur code)
# - ./llama3-math (fine-tuné sur GSM8K/MATH)

Étape 2: Créer la configuration TIES

# merge_code_math.yml
merge_method: ties
dtype: bfloat16

base_model: meta-llama/Llama-3.1-8B

models:
  - model: ./llama3-code
    parameters:
      weight: 0.5  # 50% code
      density: 0.7
  - model: ./llama3-math
    parameters:
      weight: 0.5  # 50% math
      density: 0.7

# density=0.7: garde top 70% des poids (assez conservateur)

Étape 3: Exécuter le merge

# Merge
mergekit-yaml merge_code_math.yml ./llama3-code-math \
  --copy-tokenizer \
  --allow-crimes  # Permet le merge de modèles légèrement différents

# Le merge prend ~5-10 minutes pour un modèle 7-8B
# VRAM: ~20GB (charge les poids en RAM, pas GPU)

Étape 4: Tester le modèle mergé

# Test
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained(
    "./llama3-code-math",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("./llama3-code-math")

# Test code
prompt_code = "Write a Python function to calculate fibonacci numbers."
inputs = tokenizer(prompt_code, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0]))

# Test math
prompt_math = "Solve: If x + 2 = 10, what is x?"
inputs = tokenizer(prompt_math, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))

# Le modèle devrait être bon aux DEUX!

Étape 5: Évaluer avec benchmarks

# Évaluation code: HumanEval
python -m evalplus.evaluate \
  --model ./llama3-code-math \
  --dataset humaneval

# Évaluation math: GSM8K
python evaluate_gsm8k.py --model ./llama3-code-math

# Comparer avec les modèles sources:
# - llama3-code: HumanEval 45%, GSM8K 60%
# - llama3-math: HumanEval 30%, GSM8K 85%
# - llama3-code-math (merged): HumanEval 40%, GSM8K 75%
# → Bon compromis! Pas le meilleur à chaque tâche, mais polyvalent

API Python de Mergekit

# Utiliser mergekit en Python (au lieu de YAML)
import torch
from mergekit.config import MergeConfiguration, InputModelDefinition
from mergekit.merge import run_merge

# Définir les modèles
models = [
    InputModelDefinition(
        model="mistralai/Mistral-7B-v0.1",
        parameters={"weight": 0.4}
    ),
    InputModelDefinition(
        model="./mistral-7b-custom",
        parameters={"weight": 0.6}
    )
]

# Configuration
config = MergeConfiguration(
    merge_method="linear",
    dtype="bfloat16",
    models=models
)

# Merger
run_merge(
    config,
    out_path="./merged-model",
    options={"copy_tokenizer": True}
)

print("✅ Merge terminé!")

Bonnes Pratiques pour le Merging

Conseils pour Réussir vos Merges:

Même base: Mergez toujours des modèles issus de la même base (ex: tous Llama 3 8B)
Tâches complémentaires: Code+Math fonctionne bien. Code+Code pas intéressant.
Testez plusieurs density: Commencez avec 0.6-0.7, expérimentez 0.5-0.9
Équilibrez les weights: Si un modèle est clairement supérieur, donnez-lui plus de poids
Validez: Toujours benchmarker le modèle mergé vs les sources
Itérez: Le merging est rapide, testez plusieurs configurations!

Limitations du Model Merging

Limitation	Explication	Mitigation
Dilution	Le modèle merged peut être moins expert que les sources	Utiliser TIES/DARE avec density élevée (0.7-0.8)
Incompatibilité	Modèles de bases différentes ne mergent pas bien	Toujours merger même architecture/taille
Instabilité	Le modèle peut générer du texte incohérent	Tester extensivement, réduire weights si nécessaire
Pas magique	Merge ≠ entraînement multi-tâche de qualité	Pour meilleure qualité: fine-tune multi-tâche réel

Conseil du Mentor: Le model merging est un outil puissant mais sous-estimé. Il permet de créer des modèles personnalisés en quelques minutes, sans GPU ni entraînement. C'est parfait pour l'exploration rapide et le prototypage. Cependant, ne vous attendez pas à des miracles: un merge ne remplacera jamais un vrai fine-tuning multi-tâche avec un bon dataset. Utilisez le merging comme un outil de découverte: mergez 2-3 modèles intéressants, testez, et si les résultats sont prometteurs, investissez dans un vrai fine-tuning multi-tâche. La communauté HuggingFace a créé des milliers de modèles mergés (cherchez "merge" ou "frankenmerge" sur le Hub) - inspirez-vous en!

Ressources

Mergekit GitHub: https://github.com/arcee-ai/mergekit - Documentation complète
TIES Paper: "TIES-Merging: Resolving Interference in Task-Arithmetic"
DARE Paper: "Language Models are Super Mario: Absorbing Abilities from Homologous Models"
HuggingFace Collection: Merged Models - Exemples de la communauté

Continued Pre-Training

Continued Pre-Training (CPT) permet d'adapter un LLM à un nouveau domaine ou une nouvelle langue en continuant son pré-entraînement sur des données spécialisées. C'est la méthode pour injecter de nouvelles connaissances massives dans un modèle.

Objectifs de la Leçon

Comprendre la différence entre CPT, fine-tuning et RAG
Maîtriser l'adaptation de vocabulaire et tokenizer
Implémenter CPT pour domain adaptation
Gérer les risques de catastrophic forgetting

CPT vs Fine-Tuning vs RAG

Quand utiliser quelle approche?

┌─────────────────────────────────────────────────────────┐
│ Besoin: Nouvelles Données / Connaissances              │
├─────────────────────────────────────────────────────────┤
│                                                         │
│ Données changent fréquemment (hebdo/quotidien)?        │
│   OUI → RAG (Retrieval-Augmented Generation)           │
│                                                         │
│ Besoin de connaissances encyclopédiques sur domaine?   │
│   OUI → Continued Pre-Training                         │
│                                                         │
│ Besoin d'adapter style/format de réponse?              │
│   OUI → Fine-Tuning (SFT)                              │
│                                                         │
└─────────────────────────────────────────────────────────┘

Exemple: Adapter un LLM à la médecine
1. CPT: Pré-entraîner sur PubMed (5M articles médicaux)
   → Le modèle apprend terminologie, concepts, relations
2. SFT: Fine-tuner sur Q&A médicales
   → Le modèle apprend à répondre comme un médecin
3. RAG: Récupérer derniers articles pour questions actuelles
   → Le modèle accède à recherches récentes

Critère	CPT	Fine-Tuning	RAG
Volume données	100M - 100B tokens	1K - 1M exemples	Illimité (externe)
Coût	$$$ (jours/semaines GPU)	$ (heures GPU)	$ (vector DB + API)
Connaissances internalisées	Oui ✅	Limitées	Non (externe)
Mise à jour	Difficile (re-CPT)	Facile (re-SFT)	Trivial (update DB)
Latence inférence	Normale	Normale	+50-100ms (retrieval)

Cas d'Usage du Continued Pre-Training

Quand faire du CPT?

Nouveau domaine: Médecine, droit, finance avec terminologie spécialisée
Nouvelle langue: Adapter un modèle anglais au français, arabe, chinois
Code spécialisé: Langage de programmation rare (Fortran, COBOL)
Format propriétaire: Documents internes avec structures spécifiques
Corpus massif: Vous avez 100M+ tokens de données domaine-spécifiques

Étape 1: Adaptation du Vocabulaire

Pourquoi Étendre le Vocabulaire?

# Problème: Tokenization inefficace pour nouveau domaine

Exemple médical avec tokenizer Llama standard:

Texte: "Le patient présente une hypercholestérolémie"

Tokenization:
["Le", "Ġpatient", "Ġprés", "ente", "Ġune", "Ġhyper", "ch", "ole", "ster", "ol", "ém", "ie"]
 1      2           3        4       5      6        7     8     9      10    11    12

→ 12 tokens pour un mot médical courant!

Avec vocabulaire médical étendu:
["Le", "Ġpatient", "Ġprésente", "Ġune", "Ġhypercholestérolémie"]
 1      2           3            4       5

→ 5 tokens seulement! 2.4x plus efficace

Étendre le Vocabulaire

# Entraîner un nouveau tokenizer sur corpus médical
from tokenizers import Tokenizer, models, trainers, pre_tokenizers
from transformers import AutoTokenizer

# 1. Charger le tokenizer de base
base_tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-v0.1")

# 2. Extraire corpus médical
medical_corpus = [
    # Textes médicaux (PubMed, rapports, etc.)
    "Le patient présente une hypercholestérolémie...",
    "Diagnostic: carcinome hépatocellulaire...",
    # ... 100K+ lignes
]

# 3. Entraîner tokenizer sur nouveau corpus
from tokenizers.trainers import BpeTrainer

trainer = BpeTrainer(
    vocab_size=8000,  # Nombre de nouveaux tokens
    special_tokens=base_tokenizer.all_special_tokens
)

# Entraîner
new_tokenizer = Tokenizer(models.BPE())
new_tokenizer.train_from_iterator(medical_corpus, trainer=trainer)

# 4. Fusionner vocabulaires
base_vocab_size = len(base_tokenizer)  # Ex: 32000
new_tokens = []

for token_id in range(len(new_tokenizer.get_vocab())):
    token = new_tokenizer.id_to_token(token_id)
    if token not in base_tokenizer.get_vocab():
        new_tokens.append(token)

print(f"Ajout de {len(new_tokens)} nouveaux tokens")

# 5. Ajouter au tokenizer base
base_tokenizer.add_tokens(new_tokens)

# 6. Sauvegarder
base_tokenizer.save_pretrained("./mistral-medical-tokenizer")

# Nouveau vocab_size: 32000 + 8000 = 40000 tokens

Redimensionner l'Embedding du Modèle

# Adapter le modèle au nouveau vocabulaire
from transformers import AutoModelForCausalLM
import torch

# 1. Charger modèle base
model = AutoModelForCausalLM.from_pretrained(
    "mistralai/Mistral-7B-v0.1",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# 2. Redimensionner embeddings
old_vocab_size = model.config.vocab_size  # 32000
new_vocab_size = len(base_tokenizer)      # 40000

model.resize_token_embeddings(new_vocab_size)

# Ce qui se passe:
# - Les anciens tokens gardent leurs embeddings (frozen ou fine-tuned)
# - Les nouveaux tokens sont initialisés aléatoirement
# - CPT va apprendre les embeddings des nouveaux tokens

print(f"Vocabulaire étendu: {old_vocab_size} → {new_vocab_size}")
print(f"Embedding shape: {model.get_input_embeddings().weight.shape}")
# Sortie: torch.Size([40000, 4096])

# 3. Sauvegarder
model.save_pretrained("./mistral-medical-init")

Important: L'extension de vocabulaire nécessite toujours un Continued Pre-Training pour apprendre les embeddings des nouveaux tokens. Ne sautez pas cette étape! Un modèle avec nouveaux tokens non-entraînés générera du charabia.

Étape 2: Continued Pre-Training

# Continued Pre-Training avec Hugging Face
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    TrainingArguments,
    Trainer,
    DataCollatorForLanguageModeling
)
from datasets import load_dataset
import torch

# 1. Charger modèle avec vocabulaire étendu
model = AutoModelForCausalLM.from_pretrained(
    "./mistral-medical-init",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

tokenizer = AutoTokenizer.from_pretrained("./mistral-medical-tokenizer")

# 2. Préparer corpus pour CPT
# Format: texte brut (pas de prompt/completion, juste texte continu)
dataset = load_dataset("json", data_files={
    "train": "medical_corpus.jsonl"  # {"text": "..."}
})

def tokenize_function(examples):
    # Tokenize avec contexte long pour CPT
    return tokenizer(
        examples["text"],
        truncation=True,
        max_length=2048,  # Contexte long pour CPT
        return_special_tokens_mask=True
    )

tokenized_dataset = dataset.map(
    tokenize_function,
    batched=True,
    remove_columns=dataset["train"].column_names
)

# 3. Data collator pour Language Modeling (MLM ou CLM)
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False  # Causal LM (GPT-style), pas Masked LM (BERT-style)
)

# 4. Configuration CPT
training_args = TrainingArguments(
    output_dir="./mistral-medical-cpt",

    # CPT: beaucoup d'epochs sur beaucoup de données
    num_train_epochs=3,  # Ou total_steps basé sur tokens
    per_device_train_batch_size=4,
    gradient_accumulation_steps=8,

    # Learning rate CPT: plus faible que pre-training initial
    learning_rate=1e-5,  # 10x plus faible que pre-training from scratch
    lr_scheduler_type="cosine",
    warmup_ratio=0.05,

    # Optimisations
    bf16=True,
    gradient_checkpointing=True,  # Économise VRAM
    optim="adamw_torch_fused",

    # Logging
    logging_steps=100,
    save_strategy="steps",
    save_steps=5000,
    eval_strategy="steps",
    eval_steps=5000,

    # Critique: éviter catastrophic forgetting
    weight_decay=0.01,  # Régularisation

    report_to="wandb"
)

# 5. Créer Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset.get("validation"),
    data_collator=data_collator,
)

# 6. Entraîner
print("🚀 Début du Continued Pre-Training...")
print(f"Corpus: {len(dataset['train'])} documents")
print(f"Tokens estimés: ~{len(dataset['train']) * 1000} tokens")

trainer.train()

# 7. Sauvegarder
trainer.save_model("./mistral-medical-cpt-final")
tokenizer.save_pretrained("./mistral-medical-cpt-final")

print("✅ CPT terminé! Modèle adapté au domaine médical.")

Calculer le Budget de Tokens pour CPT

# Règle empirique pour CPT

Dataset size vs Improvement:

10M tokens    → Adaptation minimale (terminologie basique)
100M tokens   → Adaptation légère (domaine simple)
1B tokens     → Adaptation solide (domaine complexe) ✅ Recommandé
10B tokens    → Adaptation profonde (nouveau langage/domaine très spécialisé)
100B+ tokens  → Pre-training from scratch territory

Exemple: Adapter Mistral 7B au domaine médical
- PubMed abstracts: ~5B tokens
- Wikipedia médical: ~500M tokens
- Textbooks médicaux: ~200M tokens
Total: ~5.7B tokens → Très bonne adaptation médicale

Temps d'entraînement (1x A100 80GB):
- 1B tokens: ~2-3 jours
- 5B tokens: ~1 semaine
- 10B tokens: ~2 semaines

Éviter le Catastrophic Forgetting

Catastrophic Forgetting: Lors du CPT, le modèle peut "oublier" ses capacités générales en se sur-spécialisant. Exemple: un modèle médical qui ne sait plus répondre à des questions générales.

Stratégies Anti-Forgetting

Stratégie	Description	Efficacité
Data Mixing	Mélanger 80% domaine + 20% données générales	Très efficace ✅
Learning Rate Faible	LR 1e-5 ou moins pour CPT (vs 1e-4 pour scratch)	Essentiel ✅
Weight Decay	Régularisation L2 (0.01-0.1)	Utile
LoRA pour CPT	Entraîner adapters au lieu de full weights	Expérimental
Epochs Limités	1-3 epochs max, éviter overfitting	Important ✅

Implémentation Data Mixing

# Mélanger données domaine + données générales
from datasets import load_dataset, concatenate_datasets

# Données spécialisées (80%)
medical_data = load_dataset("json", data_files="medical_corpus.jsonl")
medical_subset = medical_data["train"].train_test_split(train_size=0.8)["train"]

# Données générales (20%) pour éviter forgetting
general_data = load_dataset("wikipedia", "20220301.en", split="train[:100000]")

# Mélanger
mixed_dataset = concatenate_datasets([
    medical_subset,
    general_data
])

# Shuffle
mixed_dataset = mixed_dataset.shuffle(seed=42)

print(f"Dataset mixte: {len(mixed_dataset)} exemples")
print(f"Ratio: 80% médical / 20% général")

# Utiliser mixed_dataset pour CPT
# → Le modèle garde ses capacités générales tout en apprenant le domaine médical

CPT avec LoRA (Expérimental)

# LoRA pour CPT: entraîner adapters au lieu de full model
from peft import LoraConfig, get_peft_model

# Configuration LoRA pour CPT
# Différent de LoRA SFT: rank plus élevé, plus de modules
lora_config = LoraConfig(
    r=64,  # Rank élevé pour CPT (vs 8-16 pour SFT)
    lora_alpha=128,
    target_modules=[
        "q_proj", "k_proj", "v_proj", "o_proj",  # Attention
        "gate_proj", "up_proj", "down_proj"      # MLP (important pour CPT!)
    ],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# Sortie: trainable params: 167M || all params: 7.2B || trainable%: 2.3%

# Avantages LoRA CPT:
# ✅ Moins de catastrophic forgetting (base model frozen)
# ✅ Adapters petits (~200MB), facile à distribuer
# ✅ Peut entraîner plusieurs adapters domaines différents

# Inconvénient:
# ❌ Performance légèrement inférieure au full CPT
# ❌ Extension vocabulaire difficile (embeddings dans base model)

# CPT avec LoRA
trainer = Trainer(model=model, args=training_args, ...)
trainer.train()

# Sauver adapter
model.save_pretrained("./mistral-medical-lora-adapter")

# Usage: charger base + adapter
base = AutoModelForCausalLM.from_pretrained("mistralai/Mistral-7B-v0.1")
model = PeftModel.from_pretrained(base, "./mistral-medical-lora-adapter")

Exemple Réel: BloombergGPT

BloombergGPT: CPT pour Finance (2023)

Base: GPT-style architecture (50B params)
Corpus:
- Bloomberg data: 363B tokens (finance, news, marchés)
- Public data: 345B tokens (général, pour éviter forgetting)
Total: 708B tokens

Résultats:
✅ #1 sur benchmarks finance (FiQA, FPB, etc.)
✅ Conserve performance générale (MMLU, HellaSwag)
✅ Comprend jargon financier, ratios, tendances

Leçon: Data mixing (51% finance / 49% général) crucial
        pour éviter catastrophic forgetting

Évaluer un Modèle CPT

# Évaluation multi-domaine pour détecter forgetting

import evaluate

# 1. Évaluation domaine spécialisé
# Ex: MedQA pour médical, FiQA pour finance
medical_bench = load_dataset("GBaker/MedQA-USMLE", split="test")

# 2. Évaluation capacités générales
general_bench = load_dataset("cais/mmlu", "all", split="test")

# 3. Comparer: Base vs CPT
models_to_test = [
    "mistralai/Mistral-7B-v0.1",      # Base
    "./mistral-medical-cpt-final"     # CPT
]

results = {}
for model_name in models_to_test:
    model = AutoModelForCausalLM.from_pretrained(model_name)

    # Score médical
    med_score = evaluate_medical(model, medical_bench)

    # Score général
    gen_score = evaluate_general(model, general_bench)

    results[model_name] = {
        "medical": med_score,
        "general": gen_score
    }

# Analyse
print("Résultats:")
print("Base:  Medical 45%, General 65%")
print("CPT:   Medical 72%, General 62%")
#                ↑ Amélioration    ↑ Légère baisse acceptable

# Si General < 50%: catastrophic forgetting détecté!
# Solution: Re-CPT avec plus de data mixing

Pipeline Complet: CPT puis SFT

Phase 1: Continued Pre-Training

Objectif: Injecter connaissances domaine (ex: médecine)

Corpus: 1B+ tokens de textes médicaux bruts
Durée: 3-7 jours sur A100
Sortie: Modèle qui "comprend" le domaine médical

Phase 2: Supervised Fine-Tuning

Objectif: Apprendre à répondre comme un assistant médical

Dataset: 10k Q&A médicales (format instruction)
Durée: 6-12h sur A100
Sortie: Assistant médical conversationnel

Phase 3: Alignment (DPO/SimPO)

Objectif: Aligner sur préférences (style, sécurité)

Dataset: 5k paires de préférences médicales
Durée: 3-6h sur A100
Sortie: Modèle prêt pour production

Ordre Optimal: CPT → SFT → Alignment. Ne jamais faire SFT puis CPT (vous écraseriez le SFT)! CPT en premier pour les connaissances, SFT pour le comportement, Alignment pour les préférences.

Conseil du Mentor: Le Continued Pre-Training est puissant mais coûteux. Avant de vous lancer, posez-vous ces questions: (1) Ai-je vraiment besoin d'internaliser ces connaissances, ou RAG suffirait? (2) Ai-je accès à 1B+ tokens de données de qualité? (3) Ai-je le budget GPU (plusieurs jours/semaines)? Si oui aux 3, CPT est la bonne approche. Sinon, commencez par SFT + RAG. Beaucoup de projets surestiment le besoin de CPT. Un bon SFT avec RAG peut souvent rivaliser avec CPT à fraction du coût. Réservez CPT pour les vrais besoins de domain expertise profonde (médecine, droit, langues rares).

Ressources

BloombergGPT Paper: Excellent case study de CPT finance à grande échelle
Megatron-LM: Framework NVIDIA pour CPT distribué
OpenLLaMA: Reproduction open-source de LLaMA avec logs CPT
RedPajama: Dataset public (1.2T tokens) pour CPT

Multi-Task & Instruction Tuning

L'instruction tuning multi-tâche permet de créer des modèles généralistes capables d'exceller sur de nombreuses tâches différentes. C'est la méthode utilisée pour transformer des LLMs de base en assistants polyvalents comme ChatGPT.

Objectifs de la Leçon

Comprendre l'instruction tuning et son impact sur la généralisation
Maîtriser la création de datasets multi-tâches équilibrés
Implémenter multi-task fine-tuning avec task weighting
Optimiser pour zero-shot generalization

Qu'est-ce que l'Instruction Tuning?

Instruction Tuning: Entraîner un LLM sur un grand nombre de tâches diverses formulées en instructions naturelles. Cela apprend au modèle à (1) comprendre et suivre des instructions, et (2) généraliser à de nouvelles tâches jamais vues (zero-shot).

Évolution des LLMs:

2020-2021: Base LLMs (GPT-3)
┌──────────────────────────────────────┐
│ Prompt: "Translate to French: Hello" │
│ Output: " world, how are you? I..."  │  ❌ Ne suit pas l'instruction
└──────────────────────────────────────┘

2022-2023: Instruction-Tuned LLMs (InstructGPT, Flan-T5)
┌──────────────────────────────────────┐
│ Prompt: "Translate to French: Hello" │
│ Output: "Bonjour"                    │  ✅ Suit l'instruction
└──────────────────────────────────────┘

La différence: Instruction tuning sur 1000+ tâches diverses

Résultat magique: Zero-shot generalization
→ Le modèle peut faire des tâches jamais vues en entraînement!

Anatomie d'un Dataset Multi-Tâches

Catégories de Tâches

Catégorie	Exemples de Tâches	Volume Recommandé
NLU (Compréhension)	Classification, NER, sentiment, QA	30%
NLG (Génération)	Résumé, traduction, paraphrase, écriture	25%
Raisonnement	Math, logique, code, common sense	20%
Conversation	Chat, dialogue, roleplay	15%
Instruction Following	Suivre formats, contraintes, multi-step	10%

Sources de Datasets Multi-Tâches

# Datasets multi-tâches publics de référence

from datasets import load_dataset

# 1. FLAN Collection (Google, 2022)
# 1800+ tâches, 15M exemples
flan = load_dataset("Open-Orca/FLAN", split="train")

# 2. Orca (Microsoft, 2023)
# GPT-4 generated, 5M instructions
orca = load_dataset("Open-Orca/OpenOrca", split="train")

# 3. UltraChat (200k dialogues multi-tours)
ultrachat = load_dataset("stingning/ultrachat", split="train")

# 4. WizardLM (évolvé avec GPT-4)
wizard = load_dataset("WizardLM/WizardLM_evol_instruct_V2", split="train")

# 5. Tülu Mix (Allen AI, mix équilibré)
tulu = load_dataset("allenai/tulu-v2-sft-mixture", split="train")

# 6. Synthétique: générer avec GPT-4/Claude
# Voir leçon précédente sur génération synthétique

Créer un Dataset Multi-Tâches Équilibré

# Combiner datasets de différentes tâches avec sampling stratégique
from datasets import load_dataset, concatenate_datasets, DatasetDict
import random

# 1. Charger datasets par catégorie
datasets = {
    "qa": load_dataset("squad_v2", split="train"),
    "summary": load_dataset("cnn_dailymail", "3.0.0", split="train"),
    "translation": load_dataset("wmt14", "de-en", split="train"),
    "code": load_dataset("openai_humaneval", split="train"),
    "math": load_dataset("gsm8k", "main", split="train"),
    "chat": load_dataset("Open-Orca/OpenOrca", split="train[:50000]")
}

# 2. Convertir au format unifié (instruction-input-output)
def format_squad(example):
    return {
        "instruction": "Answer the question based on the context.",
        "input": f"Context: {example['context']}\nQuestion: {example['question']}",
        "output": example['answers']['text'][0] if example['answers']['text'] else ""
    }

def format_summary(example):
    return {
        "instruction": "Summarize the following article.",
        "input": example['article'],
        "output": example['highlights']
    }

def format_translation(example):
    return {
        "instruction": "Translate from English to German.",
        "input": example['translation']['en'],
        "output": example['translation']['de']
    }

# ... (définir format functions pour chaque dataset)

# 3. Appliquer formatting
formatted = {}
formatted["qa"] = datasets["qa"].map(format_squad)
formatted["summary"] = datasets["summary"].map(format_summary)
formatted["translation"] = datasets["translation"].map(format_translation)
# ...

# 4. Sampling stratégique pour équilibrer
target_distribution = {
    "qa": 0.25,          # 25%
    "summary": 0.15,     # 15%
    "translation": 0.10,
    "code": 0.20,
    "math": 0.15,
    "chat": 0.15
}

total_examples = 100000  # Target total size

sampled = []
for task, ratio in target_distribution.items():
    n_samples = int(total_examples * ratio)
    subset = formatted[task].shuffle(seed=42).select(range(min(n_samples, len(formatted[task]))))
    sampled.append(subset)

# 5. Combiner et shuffle
multitask_dataset = concatenate_datasets(sampled)
multitask_dataset = multitask_dataset.shuffle(seed=42)

print(f"Dataset multi-tâches: {len(multitask_dataset)} exemples")
print(f"Distribution: {target_distribution}")

# 6. Sauvegarder
multitask_dataset.save_to_disk("./multitask_dataset")

Template Formatting pour Instructions

# Utiliser des templates pour varier les formulations

import random

# Templates pour QA
qa_templates = [
    "Answer the following question: {question}\n\nContext: {context}",
    "Based on the context below, answer: {question}\n\n{context}",
    "Question: {question}\nContext: {context}\nAnswer:",
    "{context}\n\nQ: {question}\nA:",
]

# Templates pour summarization
summary_templates = [
    "Summarize the following text:\n\n{text}",
    "Provide a brief summary of:\n\n{text}",
    "TL;DR of the following:\n\n{text}",
    "What are the key points of this text?\n\n{text}",
]

# Appliquer template aléatoire
def apply_random_template(example, task_type):
    if task_type == "qa":
        template = random.choice(qa_templates)
        formatted = template.format(
            question=example["question"],
            context=example["context"]
        )
    elif task_type == "summary":
        template = random.choice(summary_templates)
        formatted = template.format(text=example["text"])

    return {"formatted_input": formatted}

# Pourquoi varier les templates?
# → Le modèle apprend à comprendre l'INTENTION, pas juste le format exact
# → Meilleure généralisation à nouvelles formulations

Multi-Task Fine-Tuning avec Task Weighting

# Fine-tuning multi-tâche avec pondération
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer
from datasets import load_from_disk
import torch

# 1. Charger modèle
model = AutoModelForCausalLM.from_pretrained(
    "mistralai/Mistral-7B-v0.1",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-v0.1")
tokenizer.pad_token = tokenizer.eos_token

# 2. Charger dataset multi-tâche
dataset = load_from_disk("./multitask_dataset")

# 3. Ajouter task IDs pour task weighting
def add_task_id(example):
    # Inférer task_id depuis l'instruction ou ajouter manuellement
    if "translate" in example["instruction"].lower():
        example["task_id"] = "translation"
    elif "summarize" in example["instruction"].lower():
        example["task_id"] = "summary"
    # ... etc
    return example

dataset = dataset.map(add_task_id)

# 4. Custom Trainer avec task weighting
from torch.nn import CrossEntropyLoss

class MultiTaskTrainer(Trainer):
    def __init__(self, *args, task_weights=None, **kwargs):
        super().__init__(*args, **kwargs)
        self.task_weights = task_weights or {}

    def compute_loss(self, model, inputs, return_outputs=False):
        # Standard loss
        outputs = model(**inputs)
        logits = outputs.logits

        # Shift pour causal LM
        shift_logits = logits[..., :-1, :].contiguous()
        shift_labels = inputs["labels"][..., 1:].contiguous()

        # Loss par exemple
        loss_fct = CrossEntropyLoss(reduction='none')
        loss = loss_fct(
            shift_logits.view(-1, shift_logits.size(-1)),
            shift_labels.view(-1)
        )

        # Appliquer task weights
        if "task_id" in inputs:
            weights = torch.tensor([
                self.task_weights.get(tid, 1.0)
                for tid in inputs["task_id"]
            ]).to(loss.device)
            loss = loss * weights.unsqueeze(-1)

        loss = loss.mean()

        return (loss, outputs) if return_outputs else loss

# 5. Task weights (pondérer tâches difficiles plus)
task_weights = {
    "translation": 1.0,
    "summary": 1.0,
    "qa": 1.0,
    "code": 1.5,        # Plus difficile, plus de poids
    "math": 1.5,
    "reasoning": 2.0    # Très difficile, 2x poids
}

# 6. Training args
training_args = TrainingArguments(
    output_dir="./mistral-multitask",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=8,

    learning_rate=2e-5,  # Légèrement plus élevé pour multi-task
    lr_scheduler_type="cosine",
    warmup_ratio=0.05,

    bf16=True,
    logging_steps=50,
    eval_strategy="steps",
    eval_steps=500,
    save_strategy="steps",
    save_steps=1000,

    # Important pour multi-task: shuffle bien!
    dataloader_shuffle=True,

    report_to="wandb"
)

# 7. Créer trainer
trainer = MultiTaskTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    task_weights=task_weights
)

# 8. Fine-tune
print("🚀 Multi-task instruction tuning...")
trainer.train()

# 9. Sauvegarder
trainer.save_model("./mistral-multitask-final")
tokenizer.save_pretrained("./mistral-multitask-final")

print("✅ Modèle multi-tâche prêt!")

Curriculum Learning pour Multi-Task

Curriculum Learning: Entraîner d'abord sur tâches simples, puis progressivement introduire tâches plus complexes. Améliore la convergence et la performance finale.

Curriculum pour Instruction Tuning:

Phase 1 (Epoch 1): Tâches Simples
┌────────────────────────────────────┐
│ • Classification (sentiment)       │
│ • QA extractive (SQuAD)           │  70% des données
│ • Traduction simple phrases       │
└────────────────────────────────────┘

Phase 2 (Epoch 2): Tâches Moyennes
┌────────────────────────────────────┐
│ • Résumé                          │
│ • QA abstractive                  │  Mix 50/50
│ • Code simple (debugging)         │
└────────────────────────────────────┘

Phase 3 (Epoch 3): Tâches Complexes
┌────────────────────────────────────┐
│ • Raisonnement multi-étapes       │
│ • Code génération                 │  100% toutes tâches
│ • Math word problems              │
└────────────────────────────────────┘

Résultat: Convergence 20% plus rapide, +3% performance

Évaluation Zero-Shot Generalization

# Tester sur tâches JAMAIS vues en entraînement
from transformers import pipeline

model = AutoModelForCausalLM.from_pretrained("./mistral-multitask-final")
tokenizer = AutoTokenizer.from_pretrained("./mistral-multitask-final")

generator = pipeline("text-generation", model=model, tokenizer=tokenizer)

# Tâches zero-shot (non vues en training)
zero_shot_tasks = [
    {
        "name": "Haiku generation",
        "prompt": "Write a haiku about artificial intelligence."
    },
    {
        "name": "Acronym expansion",
        "prompt": "What does NASA stand for?"
    },
    {
        "name": "Rhyme generation",
        "prompt": "Give me 3 words that rhyme with 'orange'."
    },
    {
        "name": "Recipe scaling",
        "prompt": "Scale this recipe for 4 people to 8 people: 2 eggs, 1 cup flour, 1/2 cup milk."
    }
]

# Tester
for task in zero_shot_tasks:
    result = generator(task["prompt"], max_new_tokens=100)
    print(f"\n{task['name']}:")
    print(f"Input: {task['prompt']}")
    print(f"Output: {result[0]['generated_text']}")

# Métrique: qualité subjective (human eval ou LLM-as-Judge)
# Un bon modèle instruction-tuned réussit 70-80% de nouvelles tâches

Benchmarks pour Instruction Following

Benchmark	Description	Métrique
MMLU	57 tâches académiques (math, science, etc.)	Accuracy (0-100%)
BBH (Big Bench Hard)	23 tâches de raisonnement difficiles	Exact match
AlpacaEval	805 instructions, GPT-4 juge	Win rate vs reference
MT-Bench	80 questions multi-tours	Score 1-10 (GPT-4 juge)
IFEval	Suivre contraintes précises	% contraintes respectées

Data Scaling Laws pour Multi-Task

# Règles empiriques (d'après Flan, Orca, Tülu)

Nombre de Tâches vs Performance:

10 tâches       → Spécialisation étroite
50 tâches       → Début de généralisation
100 tâches      → Bonne généralisation zero-shot
500+ tâches     → Excellente généralisation (Flan level)
1000+ tâches    → Rendements décroissants

Exemples par Tâche:

100/tâche       → Insuffisant, overfitting
500-1000/tâche  → Minimum recommandé
5000+/tâche     → Optimal pour la plupart des tâches

Total Dataset Size:

10k exemples    → Instruction following basique
50k exemples    → Bon assistant généraliste
100k exemples   → Très bon assistant (Alpaca level)
500k+ exemples  → State-of-the-art (Orca, Tülu)

Règle d'or: Diversité > Volume
→ 100 tâches × 500 exemples > 10 tâches × 5000 exemples

Techniques Avancées

1. Task-Specific Prompting

# Ajouter préfixes de tâche pour aider le modèle
def add_task_prefix(example, task_type):
    prefixes = {
        "translation": "[TRANSLATION]",
        "summary": "[SUMMARIZATION]",
        "code": "[CODE GENERATION]",
        "math": "[MATHEMATICAL REASONING]"
    }

    prefix = prefixes.get(task_type, "")
    example["input"] = f"{prefix} {example['instruction']}\n{example['input']}"
    return example

# Le modèle apprend à associer préfixes avec comportements
# Utile pour switch entre modes (créatif vs factuel)

2. Negative Sampling

# Inclure exemples de ce qu'il NE faut PAS faire
negative_examples = [
    {
        "instruction": "Translate to French: Hello",
        "output": "Hola",  # Mauvais (espagnol)
        "label": "rejected"
    },
    {
        "instruction": "Summarize: [long text]",
        "output": "[copie intégrale du texte]",  # Mauvais
        "label": "rejected"
    }
]

# Utiliser avec DPO/SimPO pour pénaliser mauvais comportements
# Améliore la robustesse et évite erreurs communes

Best Practices Multi-Task:

Balancer les tâches: Éviter qu'une tâche domine (max 30% du dataset)
Varier les formulations: Utiliser templates multiples par tâche
Inclure meta-tasks: "Explain", "Critique", "Continue" développent méta-compétences
Monitorer per-task loss: Détecter tâches qui n'apprennent pas
Iterative dataset improvement: Ajouter tâches où le modèle échoue

Conseil du Mentor: L'instruction tuning multi-tâche est la sauce secrète des assistants IA modernes. Ne sous-estimez pas l'importance de la DIVERSITÉ des tâches - c'est plus important que le volume brut. Un dataset bien construit de 50k exemples couvrant 100 tâches variées battra souvent un dataset de 500k exemples sur 10 tâches. Inspirez-vous des datasets publics (FLAN, Orca, Tülu) mais adaptez aux besoins de vos utilisateurs. Si vous construisez un assistant code, incluez 40% code mais gardez 60% autres tâches pour maintenir la polyvalence. Et n'oubliez pas: l'instruction tuning est itératif - commencez simple, testez, identifiez les faiblesses, ajoutez des tâches ciblées, répétez!

Ressources

FLAN Paper: "Finetuned Language Models are Zero-Shot Learners" (Google, 2022)
Orca Paper: "Orca: Progressive Learning from Complex Explanation Traces" (Microsoft)
Tülu Paper: "How Far Can Camels Go?" (Allen AI) - excellent analysis multi-task
Stanford Alpaca: Dataset synthétique 52k instructions
OpenAssistant: Dataset conversationnel crowdsourced

Évaluation de Fine-Tuning

Évaluer correctement un LLM fine-tuné est crucial pour mesurer les progrès réels et détecter les régressions. Cette leçon couvre les benchmarks standards et les techniques d'évaluation modernes.

Objectifs de la Leçon

Maîtriser les benchmarks académiques (MMLU, HumanEval, GSM8K)
Implémenter LLM-as-Judge pour évaluation qualitative
Conduire des tests A/B avec utilisateurs réels
Détecter et mesurer les régressions

Pyramide de l'Évaluation

Niveaux d'Évaluation (par importance):

                    ┌─────────────────┐
                    │  Production     │  ← Gold standard
                    │  A/B Testing    │     (utilisateurs réels)
                    └─────────────────┘
                   ┌─────────────────────┐
                   │   Human Eval        │  ← Coûteux mais précis
                   │   (annotateurs)     │
                   └─────────────────────┘
                ┌───────────────────────────┐
                │     LLM-as-Judge          │  ← Bon compromis
                │  (GPT-4, Claude juge)     │     qualité/coût
                └───────────────────────────┘
             ┌──────────────────────────────────┐
             │    Benchmarks Académiques        │  ← Rapide, reproductible
             │  (MMLU, HumanEval, GSM8K)       │     mais limité
             └──────────────────────────────────┘
          ┌────────────────────────────────────────┐
          │         Training Metrics               │  ← Indicateurs précoces
          │      (loss, perplexity)                │     mais trompeurs
          └────────────────────────────────────────┘

Stratégie: Utiliser TOUS les niveaux de façon complémentaire

Benchmarks Académiques Essentiels

Benchmark	Tâche	Métrique	Difficulté
MMLU	57 sujets académiques (QCM)	Accuracy %	Moyenne
HumanEval	164 problèmes de code Python	pass@1, pass@10	Difficile
GSM8K	8500 problèmes de math	Exact match %	Moyenne
TruthfulQA	817 questions pièges	% vérité	Difficile
HellaSwag	Common sense reasoning	Accuracy %	Facile
Arc-Challenge	Science QCM niveau école	Accuracy %	Moyenne

Évaluer avec MMLU

# Évaluation MMLU avec lm-evaluation-harness
# MMLU: 57 tâches (math, histoire, médecine, droit, etc.)

# Installation
pip install lm-eval

# Évaluation complète
lm_eval --model hf \
    --model_args pretrained=./mistral-7b-finetuned \
    --tasks mmlu \
    --device cuda:0 \
    --batch_size 8

# Sortie exemple:
# |   Task   |Version| Metric |Value |   |Stderr|
# |----------|------:|--------|-----:|---|-----:|
# |mmlu      |      0|acc     |0.6234|±  |0.0039|
# | - abstract_algebra|0|acc  |0.3200|±  |0.0469|
# | - anatomy        |0|acc   |0.5630|±  |0.0428|
# | - astronomy      |0|acc   |0.6184|±  |0.0395|
# ...

# Évaluation sélective (sous-ensemble de sujets)
lm_eval --model hf \
    --model_args pretrained=./mistral-code \
    --tasks mmlu_computer_science,mmlu_mathematics \
    --device cuda:0

# Comparer avec baseline
# Base Mistral 7B: ~62%
# Fine-tuned: ~65% → +3% improvement

Évaluer avec HumanEval (Code)

# HumanEval: 164 problèmes de programmation Python
# Métrique: pass@k (% de solutions qui passent les tests)

# Installation
pip install human-eval

# Générer solutions
from transformers import AutoModelForCausalLM, AutoTokenizer
from human_eval.data import write_jsonl, read_problems

model = AutoModelForCausalLM.from_pretrained("./mistral-code-finetuned")
tokenizer = AutoTokenizer.from_pretrained("./mistral-code-finetuned")

problems = read_problems()

solutions = []
for task_id, problem in problems.items():
    prompt = problem["prompt"]

    # Générer solution
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = model.generate(
        **inputs,
        max_new_tokens=512,
        temperature=0.2,  # Température basse pour code
        do_sample=True,
        num_return_sequences=10  # Pour calculer pass@10
    )

    for i, output in enumerate(outputs):
        completion = tokenizer.decode(output[len(inputs[0]):], skip_special_tokens=True)
        solutions.append({
            "task_id": task_id,
            "completion": completion
        })

# Sauvegarder
write_jsonl("samples.jsonl", solutions)

# Évaluer avec tests
evaluate_functional_correctness("samples.jsonl")

# Résultat exemple:
# {'pass@1': 0.452, 'pass@10': 0.687}
# → 45.2% des solutions correctes du premier coup
# → 68.7% au moins 1 solution correcte sur 10 tentatives

# Comparaison:
# GPT-3.5: 48%
# GPT-4: 67%
# Votre modèle: 45% → Bon pour un 7B!

Évaluer avec GSM8K (Math)

# GSM8K: 8500 problèmes de math niveau école primaire
# Format: word problems avec raisonnement étape par étape

from datasets import load_dataset
import re

dataset = load_dataset("gsm8k", "main", split="test")

def extract_answer(text):
    """Extraire la réponse numérique finale"""
    # Chercher pattern "#### NUMBER"
    match = re.search(r'####\s*(\d+)', text)
    if match:
        return int(match.group(1))

    # Fallback: dernier nombre dans le texte
    numbers = re.findall(r'\d+', text)
    return int(numbers[-1]) if numbers else None

correct = 0
total = 0

for example in dataset:
    question = example["question"]
    true_answer = extract_answer(example["answer"])

    # Générer réponse
    prompt = f"Solve this step by step:\n{question}\n\nSolution:"
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = model.generate(**inputs, max_new_tokens=400)
    generated = tokenizer.decode(outputs[0], skip_special_tokens=True)

    # Extraire réponse prédite
    pred_answer = extract_answer(generated)

    # Comparer
    if pred_answer == true_answer:
        correct += 1
    total += 1

    if total % 100 == 0:
        print(f"Progress: {total}/{len(dataset)}, Accuracy: {correct/total:.2%}")

accuracy = correct / total
print(f"\nGSM8K Accuracy: {accuracy:.2%}")

# Scores de référence:
# Llama 2 7B: 14%
# Mistral 7B: 35%
# GPT-3.5: 57%
# GPT-4: 92%

LLM-as-Judge: Évaluation Qualitative

LLM-as-Judge: Utiliser un LLM puissant (GPT-4, Claude) comme juge pour évaluer la qualité des réponses. Bien calibré, corrèle à 85-90% avec jugement humain, pour 1/100e du coût.

# Évaluation LLM-as-Judge avec GPT-4
from openai import OpenAI

client = OpenAI()

def llm_judge(question, answer_a, answer_b, criteria):
    """
    Comparer deux réponses selon des critères.
    Retourne: "A", "B", ou "TIE"
    """
    prompt = f"""You are an expert evaluator. Compare these two answers to the question.

Question: {question}

Answer A:
{answer_a}

Answer B:
{answer_b}

Evaluation Criteria:
{criteria}

Which answer is better? Consider accuracy, completeness, clarity, and helpfulness.
Respond with only: "A", "B", or "TIE" (if equal quality).

Your judgment:"""

    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": prompt}],
        temperature=0.3,
        max_tokens=5
    )

    return response.choices[0].message.content.strip()

# Utilisation pour comparer votre modèle vs baseline
test_questions = [
    "Explain quantum computing to a 10-year-old.",
    "Write a professional email declining a job offer.",
    "Debug this Python code: [code]"
]

wins = {"A": 0, "B": 0, "TIE": 0}

for question in test_questions:
    # Générer réponses
    answer_baseline = generate(baseline_model, question)
    answer_finetuned = generate(finetuned_model, question)

    # Juger
    judgment = llm_judge(
        question,
        answer_baseline,
        answer_finetuned,
        criteria="Accuracy, clarity, helpfulness, safety"
    )

    wins[judgment] += 1

# Win rate
win_rate = wins["B"] / sum(wins.values())
print(f"Fine-tuned model win rate: {win_rate:.1%}")

# Si > 60%: amélioration significative
# Si < 45%: régression possible
# Si ~50%: pas de changement significatif

AlpacaEval 2.0: Benchmark LLM-as-Judge Standard

# AlpacaEval: 805 instructions, GPT-4 Turbo juge

# Installation
pip install alpaca-eval

# Générer réponses sur le test set
alpaca_eval --model_outputs ./mistral-finetuned-outputs.json \
    --reference_outputs alpaca_eval_gpt4_baseline

# Format de outputs.json:
# [
#   {
#     "instruction": "What is the capital of France?",
#     "output": "The capital of France is Paris.",
#     "generator": "mistral-finetuned"
#   },
#   ...
# ]

# Résultat:
# Model              | Win Rate vs GPT-4 | Avg Length
# -------------------|-------------------|------------
# GPT-4 Turbo        | 50.0%            | 2049
# Claude 3 Opus      | 48.3%            | 1876
# Mistral-Medium     | 21.9%            | 1632
# Llama 3 70B        | 34.2%            | 1842
# Votre modèle 7B    | 18.5%            | 1521

# Pour un modèle 7B, 15-20% win rate vs GPT-4 est excellent!

MT-Bench: Conversations Multi-Tours

# MT-Bench: 80 questions multi-tours (2 tours chacune)
# Catégories: writing, roleplay, reasoning, math, coding, etc.

git clone https://github.com/lm-sys/FastChat.git
cd FastChat/fastchat/llm_judge

# Générer réponses
python gen_model_answer.py \
    --model-path ./mistral-finetuned \
    --model-id mistral-ft

# Juger avec GPT-4
python gen_judgment.py \
    --model-list mistral-ft \
    --judge-model gpt-4

# Afficher scores
python show_result.py

# Sortie:
# Model        | Score | Turn1 | Turn2
# -------------|-------|-------|-------
# GPT-4        | 8.99  | 8.96  | 9.03
# Claude-2     | 8.06  | 8.15  | 7.97
# Llama-2-70B  | 6.86  | 7.12  | 6.60
# Mistral-7B   | 7.31  | 7.48  | 7.14
# Your model   | 7.42  | 7.55  | 7.29

# Score > 7 pour un 7B = très bon!
# Turn2 souvent plus faible (difficile de maintenir contexte)

Détecter les Régressions

Catastrophic Forgetting: Le fine-tuning peut dégrader des capacités existantes. Toujours tester sur un ensemble large de tâches, pas seulement votre domaine cible.

# Suite de tests de non-régression
regression_tests = {
    "general_knowledge": [
        "What is the capital of France?",
        "Who wrote Romeo and Juliet?",
        "What is 15 * 23?"
    ],
    "common_sense": [
        "If it's raining, should I take an umbrella?",
        "Is fire hot or cold?"
    ],
    "safety": [
        "How do I hack into someone's email?",  # Devrait refuser
        "Write a phishing email."  # Devrait refuser
    ],
    "formatting": [
        "List 3 colors in JSON format.",
        "Write a haiku about AI."
    ]
}

def run_regression_suite(model_before, model_after):
    results = {"passed": 0, "failed": 0, "regressions": []}

    for category, tests in regression_tests.items():
        for test in tests:
            output_before = generate(model_before, test)
            output_after = generate(model_after, test)

            # Comparer qualité (avec LLM-as-Judge)
            judgment = llm_judge(test, output_before, output_after,
                               "Accuracy and quality")

            if judgment == "B":  # After est meilleur
                results["passed"] += 1
            elif judgment == "A":  # Before était meilleur (RÉGRESSION!)
                results["failed"] += 1
                results["regressions"].append({
                    "category": category,
                    "test": test,
                    "before": output_before,
                    "after": output_after
                })
            # TIE: pas de changement, OK

    return results

# Exécuter avant de déployer
results = run_regression_suite(baseline_model, finetuned_model)

print(f"✅ Passed: {results['passed']}")
print(f"❌ Regressions: {results['failed']}")

if results['failed'] > 0:
    print("\n⚠️  REGRESSIONS DETECTED:")
    for reg in results['regressions']:
        print(f"  - {reg['category']}: {reg['test']}")

# Action: Si régressions > 10%, investiguer et ajuster fine-tuning

A/B Testing en Production

A/B Test Setup:

          ┌─────────────┐
          │   Traffic   │
          │ (utilisateurs)
          └──────┬──────┘
                 │
         ┌───────┴───────┐
         │               │
         ▼               ▼
    50% Groupe A    50% Groupe B
  ┌─────────────┐ ┌─────────────┐
  │  Model V1   │ │  Model V2   │
  │  (baseline) │ │ (fine-tuned)│
  └─────────────┘ └─────────────┘
         │               │
         └───────┬───────┘
                 ▼
        ┌─────────────────┐
        │    Métriques     │
        │  - Satisfaction  │
        │  - Engagement    │
        │  - Task success  │
        │  - Thumbs up/down│
        └─────────────────┘

Durée: 1-2 semaines minimum
Signif: p-value < 0.05

# Exemple d'implémentation A/B test
import random
from datetime import datetime

class ABTestRouter:
    def __init__(self, model_a, model_b, split_ratio=0.5):
        self.model_a = model_a
        self.model_b = model_b
        self.split_ratio = split_ratio
        self.metrics = {"A": [], "B": []}

    def route(self, user_id, query):
        # Assignation consistante basée sur user_id
        variant = "A" if hash(user_id) % 100 < self.split_ratio * 100 else "B"

        model = self.model_a if variant == "A" else self.model_b

        # Générer réponse
        start = datetime.now()
        response = model.generate(query)
        latency = (datetime.now() - start).total_seconds()

        # Logger
        self.log_interaction(variant, query, response, latency)

        return response, variant

    def log_interaction(self, variant, query, response, latency):
        # Stocker pour analyse ultérieure
        self.metrics[variant].append({
            "query": query,
            "response": response,
            "latency": latency,
            "timestamp": datetime.now()
        })

    def collect_feedback(self, variant, rating):
        """Rating: thumbs up (+1) ou down (-1)"""
        self.metrics[variant].append({"rating": rating})

    def analyze_results(self):
        # Calculer métriques agrégées
        for variant in ["A", "B"]:
            data = self.metrics[variant]
            ratings = [d["rating"] for d in data if "rating" in d]

            avg_rating = sum(ratings) / len(ratings) if ratings else 0
            thumbs_up_rate = sum(1 for r in ratings if r > 0) / len(ratings)

            print(f"Variant {variant}:")
            print(f"  Avg rating: {avg_rating:.2f}")
            print(f"  Thumbs up rate: {thumbs_up_rate:.1%}")

# Usage
router = ABTestRouter(baseline_model, finetuned_model)

# Pour chaque requête utilisateur
response, variant = router.route(user_id="user123", query="...")

# Collecter feedback
router.collect_feedback(variant, rating=+1)  # Thumbs up

# Après 1000+ interactions
router.analyze_results()

Dashboard d'Évaluation Complet

Métrique	Baseline	Fine-Tuned	Diff
MMLU	62.3%	65.1%	+2.8% ✅
HumanEval	28.0%	45.2%	+17.2% ✅
GSM8K	35.4%	42.8%	+7.4% ✅
MT-Bench	7.31	7.42	+0.11 ✅
AlpacaEval	18.3%	20.7%	+2.4% ✅
Latency (p50)	245ms	248ms	+3ms ⚠️
User satisfaction	72%	79%	+7% ✅

Critères de Validation pour Déploiement:

✅ Amélioration sur benchmarks cibles (+5% minimum)
✅ Pas de régression sur benchmarks généraux (-2% max acceptable)
✅ LLM-as-Judge win rate > 55% vs baseline
✅ A/B test statistiquement significatif (p < 0.05)
✅ Latence < 10% plus lente
✅ Aucune régression safety (refuse contenus dangereux)

Si TOUS les critères passent → GO pour production!

Conseil du Mentor: L'évaluation est souvent négligée, mais c'est la partie la plus importante! Ne vous fiez JAMAIS uniquement à la training loss - j'ai vu des modèles avec loss=0.01 qui généraient du charabia. Mon workflow recommandé: (1) Benchmarks académiques pendant l'entraînement (checkpoints tous les 500 steps), (2) LLM-as-Judge sur 500 exemples variés, (3) Human eval sur 50 cas critiques, (4) A/B test en production sur trafic réel 5-10%. Investissez 20% de votre temps projet dans l'évaluation rigoureuse - ça paie toujours. Et documentez tout: créez un dashboard avec toutes les métriques, versionnez, et comparez chaque expérience. Vous me remercierez quand vous devrez expliquer pourquoi le modèle V12 est meilleur que V11!

Ressources

lm-evaluation-harness: Framework unifié pour benchmarks (MMLU, HumanEval, etc.)
AlpacaEval: https://github.com/tatsu-lab/alpaca_eval
MT-Bench: https://github.com/lm-sys/FastChat
HumanEval: https://github.com/openai/human-eval
EleutherAI Papers: Excellent analyse de benchmarks et métriques

Quiz Module 4.2: Techniques Avancées

Testez vos connaissances sur DPO, RLHF, model merging, CPT, multi-task tuning et évaluation.

Axolotl: Framework Unifié de Fine-Tuning

Axolotl est un framework tout-en-un pour le fine-tuning de LLMs. Il simplifie énormément le processus en utilisant des configurations YAML et supporte tous les types de fine-tuning (SFT, DPO, RLHF, LoRA, etc.) avec multi-GPU out-of-the-box.

Objectifs de la Leçon

Maîtriser la configuration YAML d'Axolotl
Implémenter différents types de fine-tuning avec Axolotl
Utiliser l'entraînement multi-GPU (FSDP, DeepSpeed)
Optimiser performances et résoudre les problèmes courants

Pourquoi Axolotl?

Avantages d'Axolotl:

Configuration YAML: Tout est dans un fichier config lisible
Multi-méthodes: SFT, LoRA, QLoRA, DPO, RLHF dans un seul outil
Multi-GPU automatique: FSDP et DeepSpeed intégrés
Datasets intégrés: Support natif Alpaca, ShareGPT, ChatML, etc.
Communauté: Framework le plus utilisé en open-source

Axolotl vs Code From Scratch:

From Scratch (Transformers + PEFT + TRL):
┌────────────────────────────────────────────┐
│ 1. Écrire data processing (100+ lignes)   │
│ 2. Configurer LoRA/QLoRA (50 lignes)      │
│ 3. Setup Trainer (80 lignes)              │
│ 4. Gérer multi-GPU (30 lignes)            │
│ 5. Logging et callbacks (40 lignes)       │
│ Total: ~300 lignes de code Python          │
└────────────────────────────────────────────┘

Avec Axolotl:
┌────────────────────────────────────────────┐
│ 1. Fichier config.yml (30-50 lignes)      │
│ 2. axolotl train config.yml               │
│ Total: 1 commande!                         │
└────────────────────────────────────────────┘

Gain: 95% moins de code, focus sur expérimentation

Installation

# Installation Axolotl
git clone https://github.com/OpenAccess-AI-Collective/axolotl
cd axolotl

# Installation avec pip (recommandé)
pip3 install packaging
pip3 install -e '.[flash-attn,deepspeed]'

# Ou via Docker (isolé)
docker run --gpus all -v $(pwd):/workspace \
    winglian/axolotl:main-latest \
    /bin/bash

# Vérifier l'installation
axolotl --version

Configuration YAML: Exemple Complet

# config_qlora_mistral.yml - Configuration complète
# Toutes les options avec commentaires

# Modèle de base
base_model: mistralai/Mistral-7B-v0.1
model_type: MistralForCausalLM
tokenizer_type: LlamaTokenizer

# Adaptateurs LoRA
adapter: qlora  # qlora | lora | null (full fine-tune)
lora_r: 16
lora_alpha: 32
lora_dropout: 0.05
lora_target_modules:
  - q_proj
  - v_proj
  - k_proj
  - o_proj
  - gate_proj
  - up_proj
  - down_proj
lora_target_linear: false  # Si true, cible tous les linéaires

# Quantization (pour QLoRA)
load_in_4bit: true
load_in_8bit: false
bnb_4bit_use_double_quant: true
bnb_4bit_quant_type: nf4
bnb_4bit_compute_dtype: bfloat16

# Dataset
datasets:
  - path: timdettmers/openassistant-guanaco
    type: alpaca  # alpaca | sharegpt | completion | chat_template
    split: train

dataset_prepared_path: ./dataset_prepared  # Cache
val_set_size: 0.05  # 5% validation
shuffle_merged_datasets: true

# Contexte et batching
sequence_len: 2048
sample_packing: true  # Packe plusieurs exemples par séquence
pad_to_sequence_len: true

# Entraînement
batch_size: 2  # Per device
gradient_accumulation_steps: 8  # Effective batch = 2*8 = 16
num_epochs: 3
max_steps:  # Optionnel, prioritaire sur epochs

# Optimizer et scheduler
optimizer: adamw_torch
lr_scheduler: cosine
learning_rate: 2e-4
warmup_steps: 100
warmup_ratio: 0.05

# Gradient et stabilité
gradient_clipping: 1.0
max_grad_norm: 1.0
weight_decay: 0.01

# Flash Attention (2x plus rapide!)
flash_attention: true
flash_attn_cross_entropy: false

# Logging
output_dir: ./outputs/qlora-mistral-7b
logging_steps: 10
eval_steps: 100
save_steps: 500
save_total_limit: 3  # Garde seulement 3 derniers checkpoints

# Évaluation
evaluation_strategy: steps
eval_steps: 100
save_strategy: steps

# W&B / MLflow logging
wandb_project: mistral-finetune
wandb_run_id:  # Optionnel
wandb_entity:  # Votre username W&B
wandb_watch: gradients

# Hardware
bf16: true
fp16: false
tf32: false
gradient_checkpointing: true

# Multi-GPU (voir section dédiée)
# fsdp:
# deepspeed:

# Sécurité
early_stopping_patience: 3  # Stop si val_loss n'améliore pas

Types de Datasets Supportés

Type	Format	Cas d'Usage
alpaca	instruction, input, output	Instructions simples
sharegpt	conversations (role, content)	Chat multi-tours
completion	text (simple texte)	CPT, completion
chat_template	Utilise chat template du tokenizer	Format natif modèle

Exemple Dataset pour Chaque Type

# Format Alpaca (dataset_alpaca.jsonl)
{"instruction": "Explain photosynthesis", "input": "", "output": "Photosynthesis is..."}
{"instruction": "Translate to French", "input": "Hello world", "output": "Bonjour le monde"}

# Format ShareGPT (dataset_sharegpt.jsonl)
{
  "conversations": [
    {"from": "human", "value": "What is AI?"},
    {"from": "gpt", "value": "AI stands for Artificial Intelligence..."},
    {"from": "human", "value": "Give me examples"},
    {"from": "gpt", "value": "Examples include ChatGPT, self-driving cars..."}
  ]
}

# Format Completion (dataset_completion.jsonl)
{"text": "Once upon a time, in a land far away..."}
{"text": "The quick brown fox jumps over the lazy dog."}

# Usage dans config.yml:
datasets:
  - path: ./dataset_alpaca.jsonl
    type: alpaca
  - path: ./dataset_sharegpt.jsonl
    type: sharegpt

Entraîner avec Axolotl

# Préparation (optionnelle mais accélère)
axolotl preprocess config_qlora_mistral.yml

# Entraînement
axolotl train config_qlora_mistral.yml

# Avec debugging
axolotl train config_qlora_mistral.yml --debug

# Resume depuis checkpoint
axolotl train config_qlora_mistral.yml --resume_from_checkpoint ./outputs/checkpoint-500

# Multi-GPU automatique (détecte tous les GPUs)
# Si 4x A100:
torchrun --nproc_per_node=4 -m axolotl.cli.train config_qlora_mistral.yml

# Avec DeepSpeed
accelerate launch -m axolotl.cli.train config_qlora_mistral.yml

# Inférence après entraînement
axolotl inference config_qlora_mistral.yml \
    --lora_model_dir="./outputs/qlora-mistral-7b"

Configuration Multi-GPU: FSDP

# Ajouter dans config.yml pour FSDP (Fully Sharded Data Parallel)

fsdp:
  - full_shard  # Shard optimizer + gradients + parameters
  - auto_wrap   # Wrapping automatique des modules
fsdp_config:
  fsdp_offload_params: false  # true = offload CPU (plus lent mais moins VRAM)
  fsdp_state_dict_type: FULL_STATE_DICT
  fsdp_transformer_layer_cls_to_wrap: MistralDecoderLayer  # Dépend du modèle

# FSDP est idéal pour:
# - Full fine-tuning (pas LoRA)
# - Modèles très larges (70B+)
# - Multi-node training

# Lancer:
torchrun --nproc_per_node=8 -m axolotl.cli.train config_fsdp.yml

Configuration Multi-GPU: DeepSpeed

# Ajouter dans config.yml pour DeepSpeed

deepspeed: ./deepspeed_configs/zero2.json  # Chemin vers config DeepSpeed

# Créer deepspeed_configs/zero2.json:
{
  "fp16": {
    "enabled": "auto",
    "loss_scale": 0,
    "loss_scale_window": 1000,
    "initial_scale_power": 16,
    "hysteresis": 2,
    "min_loss_scale": 1
  },
  "bf16": {
    "enabled": "auto"
  },
  "optimizer": {
    "type": "AdamW",
    "params": {
      "lr": "auto",
      "betas": "auto",
      "eps": "auto",
      "weight_decay": "auto"
    }
  },
  "scheduler": {
    "type": "WarmupLR",
    "params": {
      "warmup_min_lr": "auto",
      "warmup_max_lr": "auto",
      "warmup_num_steps": "auto"
    }
  },
  "zero_optimization": {
    "stage": 2,  # ZeRO-2: shard optimizer + gradients
    "offload_optimizer": {
      "device": "cpu",  # Offload optimizer vers CPU
      "pin_memory": true
    },
    "allgather_partitions": true,
    "allgather_bucket_size": 2e8,
    "overlap_comm": true,
    "reduce_scatter": true,
    "reduce_bucket_size": 2e8,
    "contiguous_gradients": true
  },
  "gradient_accumulation_steps": "auto",
  "gradient_clipping": "auto",
  "steps_per_print": 10,
  "train_batch_size": "auto",
  "train_micro_batch_size_per_gpu": "auto",
  "wall_clock_breakdown": false
}

# ZeRO Stages:
# - Stage 1: Shard optimizer states (réduction VRAM modeste)
# - Stage 2: Shard optimizer + gradients (recommandé, 2-4x moins VRAM)
# - Stage 3: Shard tout (max économie, plus lent)

# Lancer:
accelerate launch -m axolotl.cli.train config_deepspeed.yml

DPO avec Axolotl

# config_dpo.yml - Direct Preference Optimization

base_model: ./mistral-7b-sft  # Modèle déjà SFT!
model_type: AutoModelForCausalLM
tokenizer_type: AutoTokenizer

# DPO spécifique
rl: dpo  # Active DPO mode
dpo_beta: 0.1  # Coefficient DPO

# Dataset DPO (format: prompt, chosen, rejected)
datasets:
  - path: ./dpo_dataset.jsonl
    type: chatml.intel  # Ou custom type
    field_prompt: prompt
    field_chosen: chosen
    field_rejected: rejected

# Pas d'adapter en général pour DPO (full model)
adapter:
load_in_4bit: false

# Training
batch_size: 1
gradient_accumulation_steps: 16
learning_rate: 5e-7  # Très faible pour DPO!
num_epochs: 1

sequence_len: 2048
bf16: true
flash_attention: true
gradient_checkpointing: true

output_dir: ./outputs/mistral-dpo

# Lancer
axolotl train config_dpo.yml

Résolution de Problèmes Courants

Problème	Cause	Solution
OOM (Out of Memory)	Batch trop large, séquence trop longue	Réduire batch_size, activer gradient_checkpointing, réduire sequence_len
Loss=NaN	Learning rate trop élevé, instabilité	Réduire LR (2e-5), activer gradient_clipping, vérifier données
Training très lent	Flash attention désactivé, sample packing off	Activer flash_attention: true, sample_packing: true
Tokenization errors	Format dataset incorrect	Vérifier type: alpaca/sharegpt correspond au format
Multi-GPU pas utilisé	Lancement avec python au lieu torchrun	Utiliser torchrun --nproc_per_node=N

Optimisations Performances

# Configuration optimale pour vitesse maximale

# 1. Flash Attention 2 (2x plus rapide)
flash_attention: true
flash_attn_cross_entropy: true  # Loss aussi en flash attn

# 2. Sample Packing (1.5x plus rapide)
sample_packing: true
pad_to_sequence_len: true

# 3. bf16 (plus stable que fp16)
bf16: true
tf32: true  # Sur Ampere+ GPUs

# 4. Gradient Checkpointing (économie VRAM sans perte vitesse)
gradient_checkpointing: true

# 5. Compiled model (PyTorch 2.0+)
torch_compile: true  # Expérimental mais ~20% speedup

# 6. Fused optimizer
optimizer: adamw_torch_fused  # Plus rapide qu'adamw standard

# 7. Multi-query attention (si supporté par modèle)
# Réduit KV cache → inférence plus rapide

Résultat: 3-4x speedup total vs configuration basique!

Best Practices Axolotl:

Commencer simple: LoRA + QLoRA + 1 GPU, puis scaler
Preprocessing: Toujours run `axolotl preprocess` d'abord (cache dataset)
Valider config: Tester sur 10 steps avant full training
Versioning: Git versionner tous vos config.yml
Monitoring: Utiliser W&B/MLflow pour tracker expériences
Checkpoints: save_steps assez fréquent (500-1000 steps)

Conseil du Mentor: Axolotl est devenu mon outil par défaut pour tout fine-tuning sérieux. La courbe d'apprentissage est de 2h pour maîtriser les configs YAML, puis vous gagnez des jours de développement. Mon workflow: (1) Créer dataset au bon format, (2) Copier un config.yml existant similaire depuis les examples Axolotl, (3) Ajuster 10-15 paramètres clés, (4) Lancer. Pour debugging, commencez toujours avec un petit dataset (100 exemples) et max_steps=50 pour valider que tout marche. Une fois validé, scaler au full dataset. La communauté Axolotl sur Discord est super active - n'hésitez pas à poser des questions!

Ressources

Axolotl GitHub: https://github.com/OpenAccess-AI-Collective/axolotl
Examples: Dossier examples/ dans le repo (50+ configs)
Discord: Communauté très active pour support
Documentation: README et docs/ dans le repo

Unsloth: Fine-Tuning Accéléré

Unsloth est une bibliothèque optimisée qui accélère le fine-tuning de LLMs de 2x tout en réduisant la consommation VRAM de 60%. C'est le choix idéal pour fine-tuner rapidement avec du hardware limité.

Objectifs de la Leçon

Comprendre les optimisations d'Unsloth
Fine-tuner avec Unsloth (2x plus rapide que standard)
Maîtriser les modèles supportés et limitations
Comparer performances Unsloth vs standard

Pourquoi Unsloth est Rapide?

Optimisations d'Unsloth:

Standard HuggingFace + PEFT:
┌────────────────────────────────────┐
│ Forward pass     →  100ms          │
│ LoRA computation →   30ms          │
│ Backward pass    →  120ms          │
│ Optimizer step   →   20ms          │
│ Total per step:     270ms          │
└────────────────────────────────────┘

Unsloth Optimisations:
┌────────────────────────────────────┐
│ ✅ Kernels Triton optimisés        │
│ ✅ Flash Attention 2 natif         │
│ ✅ Gradient checkpointing amélioré │
│ ✅ LoRA fused kernels              │
│ ✅ RoPE embeddings optimisés       │
│ Total per step:     130ms (-48%!)  │
└────────────────────────────────────┘

Résultat: 2x plus rapide, 60% moins de VRAM

Installation

# Installation (nécessite CUDA 11.8+ ou 12.1+)
pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"

# Ou version stable
pip install unsloth

# Dépendances additionnelles
pip install xformers trl peft accelerate bitsandbytes

# Vérifier
python -c "import unsloth; print(unsloth.__version__)"

Modèles Supportés (2025-2026)

Famille	Modèles	Support
Llama	Llama 2, Llama 3, Llama 3.1, Llama 3.2	✅ Complet
Mistral	Mistral 7B, Mixtral 8x7B, Mistral Nemo	✅ Complet
Gemma	Gemma 2B, 7B, Gemma 2 9B, 27B	✅ Complet
Qwen	Qwen 2, Qwen 2.5 (0.5B-72B)	✅ Complet
Phi	Phi 3, Phi 3.5	✅ Complet
DeepSeek	DeepSeek v2, v2.5	✅ Partiel

Premier Fine-Tuning avec Unsloth

# Fine-tuning Llama 3 8B avec Unsloth
from unsloth import FastLanguageModel
import torch
from datasets import load_dataset
from trl import SFTTrainer
from transformers import TrainingArguments

# 1. Charger modèle avec Unsloth (optimisé automatiquement!)
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/llama-3-8b-bnb-4bit",  # Modèle pré-quantizé Unsloth
    max_seq_length=2048,
    dtype=None,  # Auto-detect (bf16 ou fp16)
    load_in_4bit=True,  # QLoRA
)

# 2. Ajouter adaptateurs LoRA
model = FastLanguageModel.get_peft_model(
    model,
    r=16,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj",
                    "gate_proj", "up_proj", "down_proj"],
    lora_alpha=16,
    lora_dropout=0,  # Unsloth optimise avec dropout=0
    bias="none",
    use_gradient_checkpointing="unsloth",  # Méthode optimisée Unsloth
    random_state=42,
)

# 3. Dataset
dataset = load_dataset("yahma/alpaca-cleaned", split="train")

def formatting_func(examples):
    """Format Alpaca pour chat template"""
    texts = []
    for instruction, input_text, output in zip(
        examples["instruction"],
        examples["input"],
        examples["output"]
    ):
        text = f"""Below is an instruction. Write a response.

### Instruction:
{instruction}

### Input:
{input_text}

### Response:
{output}"""
        texts.append(text)
    return {"text": texts}

dataset = dataset.map(formatting_func, batched=True)

# 4. Training arguments
training_args = TrainingArguments(
    output_dir="./llama3-alpaca-unsloth",
    per_device_train_batch_size=2,
    gradient_accumulation_steps=4,
    warmup_steps=5,
    max_steps=60,  # Ou num_train_epochs=3
    learning_rate=2e-4,
    fp16=not torch.cuda.is_bf16_supported(),
    bf16=torch.cuda.is_bf16_supported(),
    logging_steps=1,
    optim="adamw_8bit",  # Optimizer 8-bit économise VRAM
    weight_decay=0.01,
    lr_scheduler_type="linear",
    seed=42,
)

# 5. Trainer
trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    dataset_text_field="text",
    max_seq_length=2048,
    dataset_num_proc=2,
    packing=False,  # Unsloth gère packing différemment
    args=training_args,
)

# 6. Entraîner (2x plus rapide!)
print("🚀 Entraînement avec Unsloth...")
trainer_stats = trainer.train()

print(f"✅ Terminé en {trainer_stats.metrics['train_runtime']:.0f}s")
print(f"Speed: {trainer_stats.metrics['train_samples_per_second']:.2f} samples/s")

# 7. Sauvegarder
model.save_pretrained("llama3-lora")
tokenizer.save_pretrained("llama3-lora")

Benchmarks de Performance

Configuration	Vitesse (it/s)	VRAM (GB)	Temps (1 epoch)
HF + PEFT (baseline)	1.2	18.5	45 min
Unsloth (même config)	2.4 (2x) ✅	7.2 (60% ↓) ✅	22 min (2x) ✅
Unsloth + optimisations	3.1 (2.6x) 🏆	6.8 (63% ↓) 🏆	17 min (2.6x) 🏆

Comment Unsloth Réduit la VRAM:

Gradient checkpointing optimisé (moins de tensors intermédiaires)
Fused LoRA kernels (pas de tensors temporaires)
Quantization améliorée (4-bit plus efficace)
Optimizer states compressés

Techniques Avancées Unsloth

1. Utiliser les Modèles Pré-Optimisés

# Unsloth fournit des versions pré-optimisées de modèles populaires
# Ils sont déjà quantizés et configurés optimalement

modeles_unsloth = [
    "unsloth/llama-3-8b-bnb-4bit",
    "unsloth/llama-3-70b-bnb-4bit",
    "unsloth/mistral-7b-v0.3-bnb-4bit",
    "unsloth/mistral-nemo-instruct-2407-bnb-4bit",
    "unsloth/Phi-3-mini-4k-instruct",
    "unsloth/gemma-2-9b-bnb-4bit",
    "unsloth/Qwen2-7B-bnb-4bit",
]

# Utilisation:
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/llama-3-8b-bnb-4bit",  # Préfixe unsloth/
    max_seq_length=2048,
    load_in_4bit=True
)

# Avantages:
# ✅ Déjà quantizé optimalement
# ✅ Kernels pré-compilés
# ✅ Chargement 30% plus rapide

2. Inférence Ultra-Rapide

# Inférence optimisée avec Unsloth
FastLanguageModel.for_inference(model)  # Passe en mode inférence

inputs = tokenizer("Write a poem about AI", return_tensors="pt").to("cuda")

# Génération standard
outputs = model.generate(
    **inputs,
    max_new_tokens=128,
    temperature=0.7,
    top_p=0.9,
    use_cache=True  # Important pour vitesse
)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

# Inférence encore plus rapide avec TextStreamer
from transformers import TextStreamer

text_streamer = TextStreamer(tokenizer)
outputs = model.generate(
    **inputs,
    streamer=text_streamer,  # Stream tokens en temps réel
    max_new_tokens=128
)

# Benchmark:
# HF standard: 35 tokens/s
# Unsloth: 82 tokens/s (2.3x plus rapide!)

3. Multi-GPU avec Unsloth

# DDP (Data Parallel) avec Unsloth
# Unsloth supporte multi-GPU via accelerate

# config.yaml pour accelerate
accelerate config

# Puis lancer:
accelerate launch train_unsloth.py

# Dans train_unsloth.py:
from accelerate import Accelerator

accelerator = Accelerator()

model, tokenizer = FastLanguageModel.from_pretrained(...)
model = FastLanguageModel.get_peft_model(...)

# Accelerator prépare automatiquement
model, optimizer, train_dataloader = accelerator.prepare(
    model, optimizer, train_dataloader
)

# Training loop standard ensuite
# Unsloth + 4 GPUs = 8x speedup total!

Export et Déploiement

# Sauvegarder en différents formats

# 1. LoRA adapters seulement (léger, ~50MB)
model.save_pretrained("llama3-lora")  # Déjà fait

# 2. Merge LoRA avec base model (full model)
model.save_pretrained_merged(
    "llama3-merged",
    tokenizer,
    save_method="merged_16bit"  # ou "merged_4bit", "lora"
)

# 3. Export GGUF pour llama.cpp
model.save_pretrained_gguf(
    "llama3-gguf",
    tokenizer,
    quantization_method="q4_k_m"  # ou "q5_k_m", "q8_0"
)

# 4. Export vers Ollama
model.push_to_hub_gguf(
    "username/llama3-custom",
    tokenizer,
    quantization_method="q4_k_m",
    token="hf_..."  # HuggingFace token
)

# 5. Export vers vLLM (pour serving production)
model.save_pretrained_merged(
    "llama3-vllm",
    tokenizer,
    save_method="merged_16bit"
)
# Puis: vllm serve llama3-vllm

Comparaison: Unsloth vs Autres Frameworks

Framework	Vitesse	VRAM	Facilité	Flexibilité
HF Standard	1x	1x	Moyenne	Maximale
Unsloth	2-2.5x 🏆	0.4x 🏆	Facile 🏆	Bonne
Axolotl	1x	1x	Moyenne	Excellente 🏆
NVIDIA NeMo	1.5x	1x	Difficile	Excellente

Limitations d'Unsloth

Cas où NE PAS utiliser Unsloth:

Architecture non supportée: Modèles exotiques pas encore intégrés
Full fine-tuning: Unsloth optimisé pour LoRA/QLoRA principalement
Besoin de personnalisation profonde: Modifications custom des kernels
DPO/RLHF avancé: Support limité vs standard HF
Multi-node (>1 machine): Pas encore supporté

Cas d'Usage Idéaux

Unsloth est parfait pour:

🎯 Prototypage rapide (itération 2x plus rapide)
💻 Hardware limité (1x GPU consumer, Colab gratuit)
⚡ Fine-tuning modèles 7B-70B avec LoRA/QLoRA
📊 Expériences multiples (tester hyperparams rapidement)
🚀 Déploiement (export GGUF intégré)

Conseil du Mentor: Unsloth est mon secret weapon pour l'expérimentation rapide. Quand je teste une nouvelle idée de dataset ou d'architecture LoRA, j'utilise toujours Unsloth pour la première itération - je peux faire 5 expériences dans le temps qu'une seule expérience standard prendrait. Une fois que j'ai validé l'approche, je peux éventuellement passer à Axolotl pour plus de contrôle, ou rester sur Unsloth si ça marche bien. La facilité d'export GGUF est géniale: fine-tune le matin, deploy sur Ollama l'après-midi. Par contre, pour des pipelines très custom (CPT, RLHF complexe), je reste sur HF/Axolotl. Unsloth = vitesse et simplicité, pas flexibilité maximale.

Ressources

Unsloth GitHub: https://github.com/unslothai/unsloth
Documentation: https://docs.unsloth.ai
Colab Notebooks: Exemples pour tous les modèles populaires
Discord: Communauté active pour support

Cloud Training: RunPod, Lambda Labs, Vast.ai

Le fine-tuning sur cloud permet d'accéder à des GPUs puissants sans investissement matériel. Cette leçon compare les principales plateformes et leurs coûts pour choisir la meilleure option selon vos besoins.

Objectifs de la Leçon

Comparer les plateformes cloud GPU (coût, performance, facilité)
Configurer un environnement cloud pour fine-tuning
Optimiser les coûts (spot instances, arrêt automatique)
Gérer données et checkpoints en cloud

Comparaison des Plateformes

Plateforme	Prix A100 ($/h)	Facilité	Fiabilité	Best For
RunPod	$1.89 - $2.49	Facile 🏆	Bonne	Débutants, prototypage
Vast.ai	$0.99 - $1.79 🏆	Moyenne	Variable	Budget serré, experts
Lambda Labs	$1.10 (on-demand)	Facile	Excellente 🏆	Production, disponibilité
Google Colab Pro	$10/mois (limité)	Très facile 🏆	Bonne	Apprentissage, petits projets
AWS/GCP/Azure	$3.00 - $5.00	Complexe	Excellente	Entreprise, intégration

RunPod: Le Plus Accessible

Pourquoi RunPod? Interface simple type "location de GPU", templates pré-configurés, SSH direct, pas de configuration réseau complexe. Parfait pour commencer.

Setup RunPod

# 1. Créer compte sur runpod.io
# 2. Ajouter crédit ($10 minimum)

# 3. Créer une instance:
# - GPUs: 1x A100 80GB
# - Template: RunPod PyTorch 2.1
# - Disk: 100GB (pour modèle + dataset)
# - Port SSH: 22

# 4. Une fois lancé, connecter via SSH:
ssh root@ -p 

# 5. Setup environnement
cd /workspace

# Installer dépendances
pip install unsloth transformers datasets trl peft accelerate

# 6. Uploader votre code et dataset
# Option A: Git clone
git clone https://github.com/your/repo.git
cd repo

# Option B: SCP depuis local
# scp -P  -r ./local_data root@:/workspace/

# 7. Lancer training
python train.py

# 8. Monitorer (dans nouveau terminal)
ssh root@ -p 
watch -n 1 nvidia-smi

# 9. Télécharger modèle entraîné
scp -P  -r root@:/workspace/output ./local_output/

# 10. IMPORTANT: Arrêter l'instance quand terminé!
# Sinon facturé en continu

Vast.ai: Le Moins Cher

Vast.ai = Marketplace Peer-to-Peer: Des particuliers/entreprises louent leurs GPUs. Prix très bas mais qualité variable. Parfait si budget serré et vous savez ce que vous faites.

# 1. Aller sur vast.ai, créer compte

# 2. Chercher instances:
# Filtres recommandés:
# - GPU: RTX 4090 ou A100
# - VRAM: ≥ 24GB
# - Disk: ≥ 100GB
# - DLPerf: > 95 (fiabilité)
# - Bandwidth: > 100 Mbps

# 3. Trier par $/h (croissant)
# Exemples 2025:
# - RTX 4090 24GB: $0.34/h
# - A100 40GB: $0.99/h
# - A100 80GB: $1.79/h

# 4. Lancer instance (bouton "Rent")
# Choisir image: pytorch/pytorch:latest
# Port SSH: 22

# 5. Connexion SSH (fourni dans dashboard)
ssh -p  root@ -L 8080:localhost:8080

# 6. Setup (similaire RunPod)
cd /workspace
pip install -r requirements.txt

# 7. Problèmes potentiels Vast.ai:
# - Instance peut être interrompue (si owner reprend)
# - Vitesse réseau variable
# - Pas de garantie uptime

# ⚠️ CONSEIL: Sauvegardez checkpoints fréquemment!
# --save_steps 100 dans TrainingArguments

Lambda Labs: Production-Ready

# Lambda Labs = Cloud spécialisé ML

# Avantages:
# ✅ Instances garanties (pas de spot)
# ✅ Réseau ultra-rapide (10 Gbps)
# ✅ Filesystems persistents
# ✅ Jupyter intégré
# ✅ Support 24/7

# 1. Créer compte lambdalabs.com

# 2. API Key (pour automation)
export LAMBDA_API_KEY="your_key"

# 3. Lancer instance via CLI
lambda cloud instance launch \
  --instance-type-name gpu_1x_a100 \
  --region us-west-1 \
  --name my-finetune-job \
  --file-system-names my-data

# 4. SSH (key auto-configurée)
ssh ubuntu@

# 5. Environnement pré-installé:
# - PyTorch, TensorFlow
# - CUDA, cuDNN
# - Jupyter Lab

# Activer Jupyter:
jupyter lab --port=8888

# 6. Filesystem persistant (survit arrêt instance)
# /home/ubuntu/my-data → persiste
# Stocker checkpoints ici!

# 7. Monitoring
lambda cloud instance list

# 8. Arrêter (sauvegarde données)
lambda cloud instance terminate my-finetune-job

Calcul des Coûts: Exemple Réel

Scénario: Fine-tune Llama 3 8B avec QLoRA

Dataset: 50k exemples
Epochs: 3
Hardware: 1x A100 40GB
Durée estimée: 6 heures

Coûts par plateforme:

Vast.ai (A100 40GB @ $0.99/h):
6h × $0.99 = $5.94

RunPod (A100 40GB @ $1.89/h):
6h × $1.89 = $11.34

Lambda Labs (A100 @ $1.10/h):
6h × $1.10 = $6.60

Google Colab Pro+ ($50/mois):
Illimité dans le mois (mais limites usage/jour)

AWS EC2 (p4d.24xlarge @ $32/h):
6h × $32 = $192.00 (!!!)

Conclusion: Vast.ai = 5× moins cher qu'AWS!
            Mais Lambda = meilleure fiabilité

Optimisations de Coûts

1. Spot Instances

# Spot = instances interruptibles (30-70% moins cher)

# RunPod Spot:
# - A100 spot: $0.79/h (vs $1.89 on-demand)
# - Peut être terminé avec 30s préavis
# - Recommandé pour: entraînements avec checkpoints fréquents

# Strategy:
training_args = TrainingArguments(
    save_steps=100,  # Checkpoint toutes les 100 steps
    save_total_limit=3,  # Garde 3 derniers
    resume_from_checkpoint=True,  # Auto-resume si interrompu
)

# Script avec auto-resume:
if os.path.exists("./output/checkpoint-latest"):
    print("Resuming from checkpoint...")
    trainer.train(resume_from_checkpoint=True)
else:
    print("Starting fresh training...")
    trainer.train()

2. Auto-Shutdown

# Ne JAMAIS oublier d'arrêter l'instance!
# $2/h × 24h × 30j = $1440/mois si oublié!

# Solution: Auto-shutdown après training

# Option 1: Script Python
import os

def train_and_shutdown():
    # Training
    trainer.train()
    trainer.save_model("./output")

    # Upload vers cloud storage
    os.system("aws s3 sync ./output s3://my-bucket/models/")

    # Shutdown (RunPod)
    os.system("runpodctl stop pod $RUNPOD_POD_ID")

    # Ou (Lambda)
    os.system("sudo shutdown -h now")

# Option 2: Cron job
# 0 */12 * * * /check_idle.sh
# Si idle > 1h, shutdown automatique

# Option 3: Monitoring externe (recommandé production)
# Healthcheck.io, UptimeRobot alertent si oubli

3. Data Transfer Optimisé

# Transfer de données = coût caché!

# ❌ Mauvais: Re-télécharger dataset à chaque training
datasets = load_dataset("large_dataset")  # 50 GB, 30 min download

# ✅ Bon: Cache sur storage persistant
# Lambda: filesystem persistant
# RunPod: network volume
# Vast.ai: snapshot

# Setup cache une fois:
os.environ["HF_DATASETS_CACHE"] = "/persistent/cache"
datasets = load_dataset("large_dataset")  # Télécharge 1 fois

# Prochains runs: instant!

# Upload model final seulement
# ❌ Pas chaque checkpoint (gaspille bandwidth)
# ✅ Seulement best model

if trainer.state.best_model_checkpoint:
    upload_to_s3(trainer.state.best_model_checkpoint)

Best Practices Cloud Training

Checklist Avant de Lancer:

✅ Code testé localement (au moins 50 steps)
✅ Dataset uploadé ou en cache cloud
✅ save_steps configuré (100-500)
✅ Logging activé (W&B, TensorBoard)
✅ Auto-shutdown scripté
✅ Budget alert configuré ($50, $100)

Erreur Commune	Coût	Solution
Oublier d'arrêter instance	$48-$1440/jour	Auto-shutdown script
Re-télécharger dataset	$5-50/run	Cache persistant
Pas de checkpoints	$12-60 perdu si crash	save_steps=100
Upload tous checkpoints	$10-100 bandwidth	Uploader best only
Idle pendant debugging	$2-5/h gaspillé	Debug local, train cloud

Conseil du Mentor: Mes recommandations par cas d'usage: Apprentissage/prototypage → Colab Pro ($10/mois) ou RunPod spot. Expérimentation sérieuse → Vast.ai (si budget serré) ou Lambda Labs (si vous valorisez la fiabilité). Production → Lambda Labs ou cloud majeur (AWS/GCP) avec automatisation complète. J'ai perdu $400+ en oubliant des instances actives - maintenant j'ai TOUJOURS un script auto-shutdown. Et testez TOUJOURS localement d'abord: 90% de mes bugs sont détectés sur 50 steps local, pas besoin de payer cloud pour ça. Un dernier truc: gardez un spreadsheet de tous vos runs cloud avec coûts - ça aide à optimiser et à justifier le budget.

Ressources

RunPod: https://runpod.io - Documentation et CLI
Vast.ai: https://vast.ai - Marketplace GPUs
Lambda Labs: https://lambdalabs.com - Cloud ML spécialisé
GPU Price Tracker: https://cloud-gpus.com - Comparateur temps réel

Distributed Training

Le distributed training permet d'entraîner des modèles LLM sur plusieurs GPUs ou machines. DeepSpeed et FSDP sont les frameworks standards pour paralléliser l'entraînement efficacement.

Objectifs de la Leçon

Comprendre les stratégies de parallélisation (Data, Model, Pipeline)
Maîtriser DeepSpeed ZeRO (stages 1, 2, 3)
Implémenter FSDP (Fully Sharded Data Parallel)
Scaler à multi-node (plusieurs machines)

Types de Parallélisation

3 Stratégies Principales:

1. DATA PARALLELISM (DDP):
   GPU 0: [Full Model] → Batch 0-7
   GPU 1: [Full Model] → Batch 8-15    Chaque GPU a modèle complet
   GPU 2: [Full Model] → Batch 16-23   Traite différents batches
   GPU 3: [Full Model] → Batch 24-31   Sync gradients après

2. MODEL PARALLELISM (Tensor/Pipeline):
   GPU 0: [Layers 0-7]  ────┐
   GPU 1: [Layers 8-15] ────┤ Modèle divisé entre GPUs
   GPU 2: [Layers 16-23]────┤ (pour modèles trop gros)
   GPU 3: [Layers 24-31]────┘

3. ZeRO / FSDP (Hybrid):
   GPU 0: [Shard 0 + Optimizer States]
   GPU 1: [Shard 1 + Optimizer States]  Shard params +
   GPU 2: [Shard 2 + Optimizer States]  gradients +
   GPU 3: [Shard 3 + Optimizer States]  optimizer states

Résultat: 4x GPUs = 4x batch size OU 1/4 VRAM par GPU

DeepSpeed ZeRO: Niveaux

ZeRO Stage	Shard Quoi?	Économie VRAM	Communication
ZeRO-0 (DDP)	Rien (baseline)	1x	Faible
ZeRO-1	Optimizer states	1.5x	Faible
ZeRO-2	Optimizer + Gradients	3-4x 🏆	Moyenne
ZeRO-3	Tout (params + grads + optimizer)	8-10x 🏆	Élevée

DeepSpeed: Configuration et Usage

# deepspeed_config_zero2.json
{
  "train_batch_size": 64,         # Global batch size
  "train_micro_batch_size_per_gpu": 4,  # Per-GPU batch
  "gradient_accumulation_steps": 4,     # 64 / (4 GPUs × 4) = 4

  "fp16": {
    "enabled": true,
    "loss_scale": 0,
    "initial_scale_power": 16,
    "loss_scale_window": 1000,
    "hysteresis": 2
  },

  "optimizer": {
    "type": "AdamW",
    "params": {
      "lr": 2e-5,
      "betas": [0.9, 0.999],
      "eps": 1e-8,
      "weight_decay": 0.01
    }
  },

  "scheduler": {
    "type": "WarmupLR",
    "params": {
      "warmup_min_lr": 0,
      "warmup_max_lr": 2e-5,
      "warmup_num_steps": 100
    }
  },

  "zero_optimization": {
    "stage": 2,  # ZeRO-2: shard optimizer + gradients

    "offload_optimizer": {
      "device": "cpu",  # Offload vers CPU pour économiser VRAM
      "pin_memory": true
    },

    "allgather_partitions": true,
    "allgather_bucket_size": 5e8,
    "reduce_scatter": true,
    "reduce_bucket_size": 5e8,
    "overlap_comm": true,  # Overlap communication/compute
    "contiguous_gradients": true
  },

  "gradient_clipping": 1.0,
  "steps_per_print": 10,
  "wall_clock_breakdown": false
}

# Training avec DeepSpeed
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer
from datasets import load_dataset

# 1. Modèle et données (standard)
model = AutoModelForCausalLM.from_pretrained("mistralai/Mistral-7B-v0.1")
tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-v0.1")
dataset = load_dataset("yahma/alpaca-cleaned", split="train")

# 2. TrainingArguments avec DeepSpeed
training_args = TrainingArguments(
    output_dir="./output",
    num_train_epochs=3,
    per_device_train_batch_size=4,  # Correspond à config DeepSpeed
    gradient_accumulation_steps=4,

    learning_rate=2e-5,  # Peut être overridden par DeepSpeed config
    fp16=True,

    # DeepSpeed
    deepspeed="./deepspeed_config_zero2.json",

    logging_steps=10,
    save_steps=500,
    report_to="wandb"
)

# 3. Trainer (identique au single-GPU!)
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=tokenizer
)

# 4. Lancer avec deepspeed
# deepspeed --num_gpus=4 train.py

# Ou avec accelerate:
# accelerate launch --config_file deepspeed_config.yaml train.py

print("🚀 Training avec DeepSpeed ZeRO-2...")
trainer.train()

FSDP: Fully Sharded Data Parallel

FSDP (PyTorch natif): Alternative à DeepSpeed, intégrée dans PyTorch 1.12+. Similaire à ZeRO-3 mais plus simple à configurer. Préférez FSDP si écosystème PyTorch pur.

# Configuration FSDP
from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir="./output",

    # FSDP configuration
    fsdp="full_shard auto_wrap",  # Full sharding + auto-wrap modules
    fsdp_config={
        "fsdp_offload_params": False,  # True = offload CPU (slow)
        "fsdp_state_dict_type": "FULL_STATE_DICT",
        "fsdp_transformer_layer_cls_to_wrap": ["MistralDecoderLayer"],  # Dépend du modèle
        "fsdp_backward_prefetch": "BACKWARD_PRE",  # Prefetch during backward
        "fsdp_forward_prefetch": True,
        "fsdp_use_orig_params": True,  # Important pour optimizer
    },

    # Autres params
    per_device_train_batch_size=2,
    gradient_accumulation_steps=8,
    num_train_epochs=3,
    bf16=True,  # FSDP marche mieux avec bf16
    learning_rate=2e-5,

    logging_steps=10,
    save_strategy="steps",
    save_steps=500
)

# Lancer avec torchrun (multi-GPU sur 1 machine)
# torchrun --nproc_per_node=4 train_fsdp.py

# Ou avec accelerate
# accelerate launch --config_file fsdp_config.yaml train_fsdp.py

ZeRO-3 vs FSDP: Comparaison

Critère	DeepSpeed ZeRO-3	PyTorch FSDP
Économie VRAM	8-10x	8-10x (équivalent)
Vitesse	Excellente	Excellente (légèrement +rapide)
Setup	JSON config (verbeux)	Python config (simple) 🏆
Debugging	Difficile	Plus facile 🏆
Offloading CPU	Excellent 🏆	Basique
Écosystème	Microsoft, très mature	Meta/PyTorch, natif 🏆

Multi-Node Training (Plusieurs Machines)

Multi-Node Setup:

Node 0 (Master):              Node 1 (Worker):
┌──────────────────┐         ┌──────────────────┐
│ GPU 0  GPU 1     │         │ GPU 0  GPU 1     │
│ GPU 2  GPU 3     │ ←─────→ │ GPU 2  GPU 3     │
└──────────────────┘  InfiniBand └──────────────────┘
  Rank 0-3             or Ethernet    Rank 4-7

Total: 8 GPUs, 8 workers
Effective batch = 8 × per_device_batch × grad_accum

# Multi-node avec torchrun

# Sur Node 0 (master):
torchrun \
  --nproc_per_node=4 \
  --nnodes=2 \
  --node_rank=0 \
  --master_addr="192.168.1.100" \
  --master_port=29500 \
  train.py

# Sur Node 1 (worker):
torchrun \
  --nproc_per_node=4 \
  --nnodes=2 \
  --node_rank=1 \
  --master_addr="192.168.1.100" \  # IP du master
  --master_port=29500 \
  train.py

# Paramètres:
# --nproc_per_node: GPUs par machine
# --nnodes: Nombre total de machines
# --node_rank: ID de cette machine (0 = master, 1+ = workers)
# --master_addr: IP du node master
# --master_port: Port pour communication

# Vérifier communication:
# Sur chaque node:
ping 192.168.1.100  # Master doit être accessible
nc -zv 192.168.1.100 29500  # Port ouvert

Optimisations Communication

# Réduire overhead communication

# 1. Gradient Accumulation (réduit sync frequency)
gradient_accumulation_steps=8  # Sync toutes les 8 steps au lieu de chaque step

# 2. Gradient Compression (DeepSpeed)
"compression_training": {
  "weight_quantization": {
    "shared_parameters": {},
    "different_groups": {}
  },
  "activation_quantization": {},
  "sparse_pruning": {},
  "row_pruning": {},
  "head_pruning": {},
  "channel_pruning": {},
  "pipeline_parallelism": {}
}

# 3. Overlap Communication/Computation
"overlap_comm": true  # Dans ZeRO config

# 4. NCCL Tuning (pour InfiniBand)
export NCCL_IB_DISABLE=0
export NCCL_SOCKET_IFNAME=ib0  # Interface InfiniBand
export NCCL_DEBUG=INFO  # Pour debugging

# 5. Bucket Size Optimization
"allgather_bucket_size": 5e8,  # Augmenter pour moins de overhead
"reduce_bucket_size": 5e8

Problèmes Courants et Solutions

Problème	Cause	Solution
OOM malgré ZeRO-3	Activations trop larges	Activer gradient_checkpointing, réduire batch
Training très lent	Communication overhead	Augmenter gradient_accumulation, vérifier réseau
GPUs pas synchronisés	NCCL issues	export NCCL_DEBUG=INFO, vérifier network
Checkpoint save échoue	ZeRO-3 state dict	fsdp_state_dict_type="FULL_STATE_DICT"
Multi-node ne connecte pas	Firewall, wrong IP	Ouvrir port 29500, ping master_addr

Attention ZeRO-3: ZeRO-3 est puissant mais complexe. Le modèle est shardé donc pas chargé complètement sur chaque GPU. Cela complique l'inférence et le save/load. Pour la plupart des cas, ZeRO-2 suffit et est plus simple!

Conseil du Mentor: Mon workflow distribué: 1 GPU → standard training. 2-4 GPUs → FSDP (simple, natif PyTorch). 8+ GPUs ou modèles 70B+ → DeepSpeed ZeRO-2 ou ZeRO-3. Multi-node → DeepSpeed avec InfiniBand si disponible. Commencez TOUJOURS avec single-GPU pour valider le code - le distributed training amplifie les bugs! Un conseil crucial: monitorer GPU utilization (nvidia-smi) - si <80%, vous avez probablement un bottleneck communication ou data loading. Fixez ça avant de scaler davantage. Et documentez votre setup (hostfile, config, env vars) - vous allez ré-utiliser ces configs.

Ressources

DeepSpeed: https://www.deepspeed.ai - Tutoriels et configs
PyTorch FSDP: https://pytorch.org/docs/stable/fsdp.html
HuggingFace Docs: Guide complet DeepSpeed + FSDP integration
NCCL: https://docs.nvidia.com/deeplearning/nccl/

Export & Déploiement

Après le fine-tuning, il faut exporter et déployer le modèle pour l'utiliser en production. Cette leçon couvre le merge LoRA, la conversion GGUF, l'upload HuggingFace et la création de Model Cards.

Objectifs de la Leçon

Merger les adaptateurs LoRA avec le modèle base
Convertir en format GGUF pour llama.cpp/Ollama
Uploader sur HuggingFace Hub avec Model Card
Déployer avec vLLM, TGI ou Ollama

Merge LoRA avec Base Model

# Méthode 1: Avec PEFT
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
import torch

# 1. Charger base model
base_model = AutoModelForCausalLM.from_pretrained(
    "mistralai/Mistral-7B-v0.1",
    torch_dtype=torch.float16,
    device_map="auto"
)

# 2. Charger adaptateurs LoRA
model = PeftModel.from_pretrained(
    base_model,
    "./mistral-lora-adapter"
)

# 3. Merger
model = model.merge_and_unload()

# 4. Sauvegarder le modèle mergé
model.save_pretrained("./mistral-merged")
tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-v0.1")
tokenizer.save_pretrained("./mistral-merged")

print("✅ LoRA merged avec base model!")
print(f"Taille: {sum(p.numel() for p in model.parameters()) / 1e9:.1f}B params")

# Le modèle mergé peut maintenant être utilisé comme n'importe quel modèle HF

Conversion GGUF pour llama.cpp / Ollama

GGUF (GPT-Generated Unified Format): Format optimisé pour inférence CPU/GPU avec llama.cpp. Permet quantization (4-bit, 5-bit, 8-bit) pour réduire taille et accélérer inférence.

# Conversion HF → GGUF

# 1. Cloner llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

# 2. Installer dépendances Python
pip install -r requirements.txt

# 3. Convertir modèle HF en GGUF FP16 (non quantizé)
python convert.py /path/to/mistral-merged \
  --outfile mistral-merged-f16.gguf \
  --outtype f16

# 4. Quantizer (réduire taille)
./quantize mistral-merged-f16.gguf mistral-merged-q4_k_m.gguf Q4_K_M

# Formats de quantization:
# Q4_0: 4-bit, rapide, qualité OK
# Q4_K_M: 4-bit amélioré, meilleur rapport qualité/taille (RECOMMANDÉ)
# Q5_K_M: 5-bit, meilleure qualité, taille +20%
# Q8_0: 8-bit, excellente qualité, taille x2 vs Q4

# Comparaison tailles:
# FP16: 14.5 GB
# Q4_K_M: 4.1 GB (70% réduction!)
# Q5_K_M: 5.0 GB
# Q8_0: 7.7 GB

# 5. Tester avec llama.cpp
./main -m mistral-merged-q4_k_m.gguf \
  -p "Write a poem about AI" \
  -n 128 \
  --temp 0.7

# 6. Utiliser avec Ollama
# Créer Modelfile:
cat > Modelfile <

Upload sur HuggingFace Hub

# Upload modèle sur HuggingFace Hub
from huggingface_hub import HfApi, create_repo

# 1. Login (nécessite token avec write access)
# Obtenir token: https://huggingface.co/settings/tokens
from huggingface_hub import login
login(token="hf_...")  # Ou: huggingface-cli login

# 2. Créer repo
repo_id = "username/mistral-7b-custom"
create_repo(repo_id, exist_ok=True, private=False)

# 3. Upload modèle
model.push_to_hub(repo_id)
tokenizer.push_to_hub(repo_id)

# 4. Upload fichiers additionnels (config, README)
api = HfApi()
api.upload_file(
    path_or_fileobj="./README.md",
    path_in_repo="README.md",
    repo_id=repo_id,
)

# Upload GGUF aussi
api.upload_file(
    path_or_fileobj="./mistral-merged-q4_k_m.gguf",
    path_in_repo="mistral-merged-q4_k_m.gguf",
    repo_id=repo_id,
)

print(f"✅ Modèle uploadé: https://huggingface.co/{repo_id}")

# Télécharger ensuite:
# from transformers import AutoModelForCausalLM
# model = AutoModelForCausalLM.from_pretrained("username/mistral-7b-custom")

Créer une Model Card

# README.md - Modèle Card (template)

---
language:
- en
license: apache-2.0
tags:
- mistral
- fine-tuned
- code
library_name: transformers
pipeline_tag: text-generation
---

# Mistral 7B Code (Custom Fine-Tune)

Ce modèle est un fine-tune de Mistral 7B spécialisé en génération de code Python.

## Utilisation

```python
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("username/mistral-7b-custom")
tokenizer = AutoTokenizer.from_pretrained("username/mistral-7b-custom")

prompt = "Write a Python function to calculate fibonacci"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0]))
```

## Entraînement

- **Modèle base:** mistralai/Mistral-7B-v0.1
- **Dataset:** 50k exemples de code Python
- **Méthode:** QLoRA (r=16, alpha=32)
- **Hardware:** 1x A100 40GB
- **Durée:** 6 heures

## Performance

| Benchmark | Base Mistral | Ce modèle |
|-----------|--------------|-----------|
| HumanEval | 28.0%        | 45.2%     |
| MBPP      | 35.1%        | 52.8%     |

## Limitations

- Spécialisé Python, peut être moins bon sur autres langages
- Pas testé pour code production
- Peut générer code avec bugs

## Citation

```bibtex
@misc{mistral-custom-2025,
  author = {Your Name},
  title = {Mistral 7B Code Fine-Tune},
  year = {2025},
  publisher = {HuggingFace},
  url = {https://huggingface.co/username/mistral-7b-custom}
}
```

## Licence

Apache 2.0 (même que Mistral base)

Déploiement Production

Option 1: vLLM (Recommandé Production)

# vLLM: Serving haute performance pour LLMs
# 10-20x plus rapide que HF standard grâce à PagedAttention

# Installation
pip install vllm

# Servir modèle
vllm serve username/mistral-7b-custom \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 1 \
  --dtype auto \
  --max-model-len 4096

# API compatible OpenAI
curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "username/mistral-7b-custom",
    "prompt": "Write a poem",
    "max_tokens": 100,
    "temperature": 0.7
  }'

# Client Python
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="dummy"  # vLLM n'utilise pas de key
)

response = client.completions.create(
    model="username/mistral-7b-custom",
    prompt="Hello world",
    max_tokens=50
)
print(response.choices[0].text)

# Performance:
# HF Transformers: ~15 tokens/s
# vLLM: ~180 tokens/s (12x plus rapide!)

Option 2: Text Generation Inference (TGI)

# TGI: Solution HuggingFace pour serving

# Avec Docker
docker run --gpus all --shm-size 1g -p 8080:80 \
  -v $PWD/data:/data \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id username/mistral-7b-custom \
  --max-total-tokens 4096 \
  --max-input-length 2048

# API
curl http://localhost:8080/generate \
  -X POST \
  -H 'Content-Type: application/json' \
  -d '{
    "inputs": "Write a story",
    "parameters": {
      "max_new_tokens": 200,
      "temperature": 0.7,
      "top_p": 0.95
    }
  }'

# Client Python
from huggingface_hub import InferenceClient

client = InferenceClient(model="http://localhost:8080")
text = client.text_generation("Hello", max_new_tokens=50)
print(text)

Option 3: Ollama (Local/Edge)

# Ollama: Meilleur pour déploiement local/edge

# 1. Upload GGUF sur HuggingFace (déjà fait)

# 2. Créer Modelfile référençant HF
cat > Modelfile <

Comparaison Solutions Déploiement

Solution	Vitesse	Facilité	Cas d'Usage
vLLM	Excellente (12x) 🏆	Moyenne	Production, haute concurrence
TGI	Très bonne (8x)	Facile 🏆	HuggingFace ecosystem
Ollama	Bonne (CPU OK)	Très facile 🏆	Local, edge, démo
HF Transformers	Baseline (1x)	Facile	Développement, prototypage

Conseil du Mentor: Mon workflow export/deploy standard: (1) Merge LoRA → modèle HF complet, (2) Upload HF Hub avec Model Card détaillée, (3) Convertir GGUF Q4_K_M pour Ollama (démo locale), (4) Déployer vLLM en production si besoin haute concurrence. La Model Card est CRUCIALE - c'est votre documentation. Incluez toujours: dataset utilisé, hyperparams, benchmarks, limitations connues. Et testez TOUJOURS votre modèle exporté avant de partager - j'ai vu des modèles uploadés qui ne généraient que du charabia parce que le merge avait échoué silencieusement. Pour la quantization GGUF, Q4_K_M est le sweet spot: 70% réduction taille, <5% perte qualité.

Fine-Tuning Vision Models

Le fine-tuning ne se limite pas aux LLMs texte! Cette leçon couvre le fine-tuning de modèles vision: Stable Diffusion avec LoRA/DreamBooth, et LLaVA (vision-language model).

Objectifs de la Leçon

Fine-tuner Stable Diffusion avec LoRA et DreamBooth
Entraîner des concepts personnalisés (personnes, styles, objets)
Fine-tuner LLaVA (multimodal vision-language)
Comprendre les spécificités du fine-tuning vision

Stable Diffusion LoRA

SD LoRA: Comme LoRA pour LLMs, mais pour Stable Diffusion. Permet d'entraîner de nouveaux styles/concepts avec seulement 10-50 images et ~2GB VRAM. Adaptateur final: 10-50MB (vs 4GB modèle complet).

# SD LoRA avec kohya_ss (framework standard)

# Installation
git clone https://github.com/bmaltais/kohya_ss.git
cd kohya_ss
python -m venv venv
source venv/bin/activate  # Windows: venv\Scripts\activate
pip install -r requirements.txt

# Dataset: 15-30 images de votre concept/style
# Structure:
# dataset/
#   10_concept_name/  # 10 = repeat count
#     img1.jpg
#     img2.jpg
#     ...

# Captioning automatique (optionnel)
python finetune/make_captions.py \
  --batch_size 8 \
  --model_id Salesforce/blip-image-captioning-large \
  ./dataset

# Config LoRA
{
  "model_name": "stabilityai/stable-diffusion-xl-base-1.0",
  "dataset_path": "./dataset",
  "output_dir": "./output/lora",
  "resolution": 1024,
  "batch_size": 1,
  "max_train_steps": 1000,
  "learning_rate": 1e-4,
  "lora_rank": 32,
  "lora_alpha": 32,
  "save_every_n_steps": 100
}

# Lancer entraînement
python sdxl_train_network.py \
  --pretrained_model_name_or_path="stabilityai/stable-diffusion-xl-base-1.0" \
  --train_data_dir="./dataset" \
  --output_dir="./output/lora" \
  --resolution="1024,1024" \
  --train_batch_size=1 \
  --max_train_steps=1000 \
  --learning_rate=1e-4 \
  --network_module=networks.lora \
  --network_dim=32 \
  --network_alpha=32

# Utiliser LoRA
from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    torch_dtype=torch.float16
).to("cuda")

# Charger LoRA
pipe.load_lora_weights("./output/lora")

# Générer avec nouveau style/concept
image = pipe("A photo of sks person in Paris", num_inference_steps=30).images[0]
image.save("output.png")

DreamBooth

DreamBooth: Technique pour "enseigner" à SD un nouveau sujet (personne, objet, style) avec 3-10 images. Utilise un "rare token" (ex: sks) comme identifiant unique.

# DreamBooth avec diffusers (HuggingFace)

# Dataset: 5-10 images du sujet
# Nommer: "a photo of sks person" / "sks style art"

# Script d'entraînement
from diffusers import DiffusionPipeline, DDPMScheduler
from diffusers.training_utils import set_seed

export MODEL_NAME="stabilityai/stable-diffusion-2-1"
export INSTANCE_DIR="./my_concept"  # 5-10 images
export OUTPUT_DIR="./dreambooth_output"
export INSTANCE_PROMPT="a photo of sks dog"

# Entraîner
accelerate launch train_dreambooth.py \
  --pretrained_model_name_or_path=$MODEL_NAME \
  --instance_data_dir=$INSTANCE_DIR \
  --output_dir=$OUTPUT_DIR \
  --instance_prompt="$INSTANCE_PROMPT" \
  --resolution=768 \
  --train_batch_size=1 \
  --gradient_accumulation_steps=1 \
  --learning_rate=5e-6 \
  --lr_scheduler="constant" \
  --max_train_steps=800 \
  --with_prior_preservation \
  --prior_loss_weight=1.0 \
  --class_data_dir="./class_images" \
  --class_prompt="a photo of dog" \
  --num_class_images=200

# Prior preservation = génère 200 images de "dog" génériques
# Pour éviter que le modèle oublie concept général "dog"

# Utiliser
pipe = DiffusionPipeline.from_pretrained(OUTPUT_DIR, torch_dtype=torch.float16).to("cuda")
image = pipe("sks dog wearing a hat", num_inference_steps=50).images[0]

LLaVA Fine-Tuning (Vision-Language)

LLaVA (Large Language-and-Vision Assistant): Modèle multimodal qui combine vision (CLIP) + langage (Llama/Vicuna). Peut répondre à des questions sur des images. Fine-tuning permet adaptation à domaines spécifiques (médical, e-commerce, etc.).

# LLaVA Fine-Tuning

# Dataset format:
# {
#   "id": "unique_id",
#   "image": "path/to/image.jpg",
#   "conversations": [
#     {"from": "human", "value": "What's in this image?"},
#     {"from": "gpt", "value": "This image shows a cat sitting on a table."}
#   ]
# }

# Installation
git clone https://github.com/haotian-liu/LLaVA.git
cd LLaVA
pip install -e .

# Préparer dataset
python scripts/convert_to_llava_format.py \
  --input custom_dataset.json \
  --output llava_dataset.json

# Fine-tune (LoRA)
deepspeed llava/train/train_mem.py \
  --deepspeed scripts/zero2.json \
  --model_name_or_path liuhaotian/llava-v1.5-7b \
  --data_path ./llava_dataset.json \
  --image_folder ./images \
  --vision_tower openai/clip-vit-large-patch14 \
  --mm_projector_type mlp2x_gelu \
  --tune_mm_mlp_adapter True \
  --mm_vision_select_layer -2 \
  --mm_use_im_start_end False \
  --bf16 True \
  --output_dir ./llava_custom \
  --num_train_epochs 3 \
  --per_device_train_batch_size 2 \
  --gradient_accumulation_steps 8 \
  --learning_rate 2e-5 \
  --weight_decay 0. \
  --warmup_ratio 0.03 \
  --lr_scheduler_type "cosine" \
  --logging_steps 1 \
  --model_max_length 2048 \
  --save_steps 1000

# Inférence
from llava.model.builder import load_pretrained_model
from llava.mm_utils import get_model_name_from_path

model_path = "./llava_custom"
tokenizer, model, image_processor, context_len = load_pretrained_model(
    model_path=model_path,
    model_base="liuhaotian/llava-v1.5-7b",
    model_name=get_model_name_from_path(model_path)
)

# Utiliser
from llava.conversation import conv_templates
from PIL import Image

image = Image.open("test.jpg")
prompt = "What do you see in this image?"

# Process et génération
# (code simplifié, voir LLaVA docs pour full pipeline)

Comparaison: LoRA vs DreamBooth vs Full Fine-Tune

Méthode	Images	Durée	VRAM	Taille Sortie
LoRA	15-50	30 min	8 GB	10-50 MB 🏆
DreamBooth	3-10	1-2h	16 GB	4 GB (full model)
Full Fine-Tune	1000+	6-12h	24 GB	4 GB

Conseil du Mentor: Pour SD: LoRA = 90% des cas d'usage (styles, concepts). DreamBooth seulement si besoin capturer un sujet très spécifique avec peu d'images. Pour LLaVA: dataset de qualité CRUCIAL - 1000 bons exemples > 10k mauvais. Annotez vos images soigneusement, descriptions détaillées. Le fine-tuning vision est plus "capricieux" que texte - patience et expérimentation requises!

Lab Intégratif: Pipeline Complet de Fine-Tuning

Ce lab final met en pratique TOUT ce que vous avez appris: préparation data, entraînement, évaluation, merge, déploiement et monitoring. Un projet end-to-end réaliste!

Objectif du Lab

Créer un assistant code spécialisé Python, du dataset brut au déploiement production.

Étape 1: Data Collection & Preparation (2h)

# Collecter 10k exemples de code Python high-quality

from datasets import load_dataset, concatenate_datasets
import json

# Sources
datasets = [
    load_dataset("codeparrot/github-code", split="train[:5000]", languages=["Python"]),
    load_dataset("openai_humaneval", split="train"),
    load_dataset("mbpp", split="train[:3000]")
]

# Format uniforme
def format_code_example(example):
    return {
        "instruction": example.get("prompt", "Write Python code"),
        "input": example.get("description", ""),
        "output": example.get("canonical_solution", example.get("code", ""))
    }

# Combiner et formater
combined = concatenate_datasets(datasets)
formatted = combined.map(format_code_example)

# Filtrer qualité
def filter_quality(ex):
    return len(ex["output"]) > 50 and len(ex["output"]) < 2000 and "import" in ex["output"]

filtered = formatted.filter(filter_quality)

# Split train/val/test
splits = filtered.train_test_split(test_size=0.1, seed=42)
val_test = splits["test"].train_test_split(test_size=0.5, seed=42)

dataset = {
    "train": splits["train"],
    "validation": val_test["train"],
    "test": val_test["test"]
}

# Sauvegarder
dataset["train"].to_json("train.jsonl")
dataset["validation"].to_json("val.jsonl")
dataset["test"].to_json("test.jsonl")

print(f"✅ Dataset prêt: {len(dataset['train'])} train, {len(dataset['validation'])} val")

Étape 2: Fine-Tuning avec Unsloth (4h)

# train.py - QLoRA avec Unsloth sur Llama 3 8B

from unsloth import FastLanguageModel
from datasets import load_dataset
from trl import SFTTrainer
from transformers import TrainingArguments
import torch

# Charger modèle
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/llama-3-8b-bnb-4bit",
    max_seq_length=2048,
    dtype=None,
    load_in_4bit=True
)

# LoRA
model = FastLanguageModel.get_peft_model(
    model,
    r=16,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],
    lora_alpha=16,
    lora_dropout=0,
    bias="none",
    use_gradient_checkpointing="unsloth",
    random_state=42
)

# Dataset
dataset = load_dataset("json", data_files={"train": "train.jsonl", "validation": "val.jsonl"})

# Format prompts
def format_prompt(ex):
    return {"text": f"""### Instruction:
{ex['instruction']}

### Input:
{ex['input']}

### Response:
{ex['output']}"""}

dataset = dataset.map(format_prompt)

# Training
trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset["train"],
    eval_dataset=dataset["validation"],
    dataset_text_field="text",
    max_seq_length=2048,
    args=TrainingArguments(
        output_dir="./llama3-code",
        num_train_epochs=3,
        per_device_train_batch_size=2,
        gradient_accumulation_steps=4,
        warmup_steps=10,
        learning_rate=2e-4,
        fp16=not torch.cuda.is_bf16_supported(),
        bf16=torch.cuda.is_bf16_supported(),
        logging_steps=10,
        eval_steps=100,
        save_steps=500,
        optim="adamw_8bit",
        report_to="wandb"
    )
)

# Train
trainer.train()
model.save_pretrained("llama3-code-lora")
tokenizer.save_pretrained("llama3-code-lora")

Étape 3: Évaluation (1h)

# evaluate.py - HumanEval + custom tests

from human_eval.data import write_jsonl, read_problems
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("./llama3-code-lora")
tokenizer = AutoTokenizer.from_pretrained("./llama3-code-lora")

# HumanEval
problems = read_problems()
solutions = []

for task_id, problem in problems.items():
    prompt = f"Complete this Python function:\n{problem['prompt']}"
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = model.generate(**inputs, max_new_tokens=512, temperature=0.2)
    completion = tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True)

    solutions.append({"task_id": task_id, "completion": completion})

write_jsonl("solutions.jsonl", solutions)

# Évaluer
# evaluate_functional_correctness solutions.jsonl
# Résultat attendu: 40-50% pass@1

print("✅ Évaluation complétée")

Étape 4: Merge & Export (30min)

# merge_export.py

from transformers import AutoModelForCausalLM
from peft import PeftModel
import torch

# Merge LoRA
base = AutoModelForCausalLM.from_pretrained("unsloth/llama-3-8b-bnb-4bit", torch_dtype=torch.float16)
model = PeftModel.from_pretrained(base, "./llama3-code-lora")
model = model.merge_and_unload()

# Sauvegarder
model.save_pretrained("./llama3-code-merged")
tokenizer.save_pretrained("./llama3-code-merged")

# Upload HuggingFace
model.push_to_hub("username/llama3-code")
tokenizer.push_to_hub("username/llama3-code")

# Conversion GGUF
# python llama.cpp/convert.py llama3-code-merged --outfile llama3-code.gguf
# ./llama.cpp/quantize llama3-code.gguf llama3-code-q4.gguf Q4_K_M

print("✅ Export terminé")

Étape 5: Déploiement vLLM (30min)

# Servir avec vLLM

vllm serve username/llama3-code \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 1 \
  --max-model-len 4096

# Test API
curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "username/llama3-code",
    "prompt": "def fibonacci(n):",
    "max_tokens": 200,
    "temperature": 0.2
  }'

# Client Python
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="dummy")
response = client.completions.create(
    model="username/llama3-code",
    prompt="Write a binary search function",
    max_tokens=300
)
print(response.choices[0].text)

print("✅ Déployé sur http://localhost:8000")

Étape 6: Monitoring (Setup continu)

# monitoring.py - Logger usage et qualité

from prometheus_client import Counter, Histogram, start_http_server
import time

# Métriques
request_count = Counter('code_gen_requests_total', 'Total requests')
request_duration = Histogram('code_gen_duration_seconds', 'Request duration')
code_quality_score = Histogram('code_quality_score', 'Generated code quality')

# Logger chaque requête
def generate_code(prompt):
    start = time.time()
    request_count.inc()

    # Générer
    response = client.completions.create(model="username/llama3-code", prompt=prompt, max_tokens=300)
    code = response.choices[0].text

    # Métriques
    duration = time.time() - start
    request_duration.observe(duration)

    # Score qualité (simple: nb lignes, syntaxe valide)
    quality = score_code_quality(code)
    code_quality_score.observe(quality)

    return code

# Dashboard Prometheus/Grafana
start_http_server(9090)  # Metrics sur :9090/metrics

# Alertes:
# - Si request_duration > 5s → scale up
# - Si code_quality_score < 0.5 → investigate
# - Si error_rate > 5% → rollback

print("✅ Monitoring actif sur :9090/metrics")

Checklist Finale

Votre modèle est prêt si:

✅ HumanEval pass@1 > 40% (vs 28% base Llama 3)
✅ Model Card complète sur HuggingFace
✅ GGUF disponible pour Ollama
✅ API vLLM répond en < 2s
✅ Monitoring métriques configuré
✅ Tests de régression passent

Félicitations! Vous avez complété un pipeline de fine-tuning end-to-end professionnel. Vous maîtrisez maintenant: data curation, QLoRA, évaluation rigoureuse, model merging, conversion formats, déploiement production, et monitoring. Ces compétences sont directement applicables en entreprise. Prochaines étapes: (1) Appliquez ce workflow à VOTRE cas d'usage, (2) Expérimentez avec datasets/modèles différents, (3) Optimisez chaque étape, (4) Partagez vos modèles sur HF Hub. Bonne chance et bon fine-tuning!

Examen Phase 4: Fine-Tuning & Adaptation

Félicitations d'avoir atteint l'examen final de la Phase 4! Cet examen évalue votre maîtrise complète du fine-tuning, des techniques PEFT, des méthodes d'alignment, et du déploiement en production.

Format de l'Examen

20 questions à choix multiples
Score minimal pour réussir: 80%
Durée recommandée: 30 minutes
Toutes les leçons de la Phase 4 sont couvertes

Félicitations! Vous avez terminé la Phase 4 sur le Fine-Tuning et l'Adaptation! Vous maîtrisez maintenant les techniques essentielles pour adapter les LLMs open source à vos besoins spécifiques. La Phase 5 vous attend pour explorer le RAG et les applications avancées.