Ressources - Fine-Tuning & Adaptation

Phase 4 : IA Generative Open Source

Index Cheatsheet

1. Documentation Officielle

Hugging Face TRL Documentation

Documentation officielle de Transformers Reinforcement Learning (TRL). Guide complet pour RLHF, DPO, PPO et fine-tuning avec Hugging Face.

https://huggingface.co/docs/trl

RLHF DPO Documentation

LoRA: Low-Rank Adaptation (Hu et al.)

Paper fondateur de LoRA (2021). Technique révolutionnaire pour adapter efficacement les LLMs avec peu de paramètres.

https://arxiv.org/abs/2106.09685

Paper LoRA 2021

QLoRA: Efficient Finetuning of Quantized LLMs

Paper QLoRA (2023). Combine LoRA avec quantization 4-bit pour fine-tuner les LLMs sur consumer GPUs.

https://arxiv.org/abs/2305.14314

Paper QLoRA 2023

Direct Preference Optimization (DPO)

Paper DPO (2023). Alternative à RLHF pour aligner les LLMs avec les préférences humaines de manière stable et efficace.

https://arxiv.org/abs/2305.18290

Paper DPO Alignment

Axolotl Documentation

Framework all-in-one pour fine-tuning des LLMs. Configuration simple en YAML, support complet LoRA, QLoRA, DPO.

https://github.com/OpenAccess-AI-Collective/axolotl

Axolotl Framework Multi-GPU

Unsloth Documentation

Framework d'optimisation pour accélérer le fine-tuning jusqu'à 2x. Compatible avec LoRA, QLoRA, DPO.

https://github.com/unslothai/unsloth

Unsloth Performance Acceleration

2. Livres et Guides

Fine-Tuning Large Language Models

Par Manning Publications. Guide pratique couvrant stratégies de fine-tuning, optimisations mémoire, et techniques avancées.

Manning Publications

Livre Pratique

PEFT Methods Guide

Guide complet des Parameter-Efficient Fine-Tuning methods. LoRA, IA³, prefix-tuning, prompt-tuning et adaptateurs.

Hugging Face PEFT Guide

Guide PEFT

Mergekit Handbook

Guide complet pour fusionner et combiner des modèles fine-tunés. Techniques SLERP, TIES, Task Arithmetic.

GitHub Mergekit

Guide Model Merging

LLM Alignment Methods

Guide sur l'alignement des LLMs: RLHF, DPO, IPO, simulated preference optimization et évaluation des alignements.

Hugging Face Alignment Handbook

Guide Alignment

3. Cours en Ligne

Hugging Face Fine-Tuning Course

Cours officiel Hugging Face couvrant fine-tuning avec Transformers, PEFT, LoRA, et cas d'usage pratiques.

https://huggingface.co/learn/nlp-course/

Gratuit Cours

DeepLearning.AI RLHF Course

Cours court par Andrew Ng sur Reinforcement Learning from Human Feedback (RLHF) pour aligner les LLMs.

https://www.deeplearning.ai/courses/

Gratuit Cours

Fast.ai Practical Deep Learning

Cours top-down couvrant fine-tuning, transfer learning et techniques d'optimisation pratiques.

https://course.fast.ai/

Gratuit Cours

Stanford CS324 LLM Course

Cours universitaire sur Large Language Models couvrant fine-tuning, adaptation et déploiement.

https://stanford-cs324.github.io/

Gratuit Cours

4. Outils et Frameworks

Axolotl

Framework all-in-one pour fine-tuning. Configuration YAML simple, support complet LoRA, QLoRA, DPO, multi-GPU.

https://github.com/OpenAccess-AI-Collective/axolotl

Framework LoRA Multi-GPU

Unsloth

Framework d'optimisation pour accélérer fine-tuning jusqu'à 2x. Memory-efficient, compatible NVIDIA/AMD.

https://github.com/unslothai/unsloth

Framework Performance QLoRA

TRL (Transformers Reinforcement Learning)

Librairie officielle Hugging Face pour RLHF, DPO, PPO. Utilisation facile avec Transformers et Datasets.

https://github.com/huggingface/trl

Framework RLHF DPO

mergekit

Outil pour fusionner et combiner des modèles fine-tunés. Techniques SLERP, TIES, Task Arithmetic.

https://github.com/cg123/mergekit

Framework Model Merging SLERP

Weights & Biases

Plateforme de tracking, monitoring et evaluation. Enregistrez hyperparamètres, métriques, et comparez runs.

https://wandb.ai/

MLOps Monitoring Experiments

Hugging Face Hub

Plateforme pour partager et collaborer. Uploades modèles, datasets, et applications avec versioning.

https://huggingface.co/hub

Framework Hub Versioning

5. GPU Providers & Compute

RunPod

Plateforme cloud GPU avec économie pay-as-you-go. Support H100, A100, RTX. Intégration seamless Jupyter, SSH.

https://www.runpod.io/

Cloud GPU Payant

Lambda Labs

Cloud GPU haute performance. H100, A100, RTX 6000. Support multi-GPU, CUDA, PyTorch pré-installé.

https://lambdalabs.com/

Cloud GPU Payant

Vast.ai

Marketplace peer-to-peer pour GPU à bas coût. Tarifs flexibles, support multi-provider, bidding system.

https://www.vast.ai/

Cloud Marketplace Payant

Google Colab

Notebooks Jupyter gratuits avec GPUs T4. Limités mais parfaits pour expérimenter et prototypes.

https://colab.google.com/

Cloud Notebooks Gratuit

Paperspace

Plateforme ML avec GPUs, Gradient notebooks et deployment. Support multi-GPU, persistent storage.

https://www.paperspace.com/

Cloud GPU Payant

6. Communautés

r/LocalLLaMA

Subreddit très actif sur LLMs open source, quantization, fine-tuning local et déploiement.

https://www.reddit.com/r/LocalLLaMA/

Community Reddit Gratuit

Hugging Face Forums

Forums officiels pour questions sur Transformers, fine-tuning, datasets et deployment.

https://discuss.huggingface.co/

Community Forum Gratuit

Axolotl Discord

Serveur Discord actif pour Axolotl. Support, discussions fine-tuning et sharing d'expériences.

https://discord.gg/axolotl

Community Discord Gratuit

OpenAccess AI Collective

Communauté derrière Axolotl et autres outils open source pour LLMs. Contribution bienvenue.

https://www.openaccess.ai/

Community Open Source Gratuit