Phase 4 : IA Generative Open Source
Documentation officielle de Transformers Reinforcement Learning (TRL). Guide complet pour RLHF, DPO, PPO et fine-tuning avec Hugging Face.
https://huggingface.co/docs/trlPaper fondateur de LoRA (2021). Technique révolutionnaire pour adapter efficacement les LLMs avec peu de paramètres.
https://arxiv.org/abs/2106.09685Paper QLoRA (2023). Combine LoRA avec quantization 4-bit pour fine-tuner les LLMs sur consumer GPUs.
https://arxiv.org/abs/2305.14314Paper DPO (2023). Alternative à RLHF pour aligner les LLMs avec les préférences humaines de manière stable et efficace.
https://arxiv.org/abs/2305.18290Framework all-in-one pour fine-tuning des LLMs. Configuration simple en YAML, support complet LoRA, QLoRA, DPO.
https://github.com/OpenAccess-AI-Collective/axolotlFramework d'optimisation pour accélérer le fine-tuning jusqu'à 2x. Compatible avec LoRA, QLoRA, DPO.
https://github.com/unslothai/unslothPar Manning Publications. Guide pratique couvrant stratégies de fine-tuning, optimisations mémoire, et techniques avancées.
Manning PublicationsGuide complet des Parameter-Efficient Fine-Tuning methods. LoRA, IA³, prefix-tuning, prompt-tuning et adaptateurs.
Hugging Face PEFT GuideGuide complet pour fusionner et combiner des modèles fine-tunés. Techniques SLERP, TIES, Task Arithmetic.
GitHub MergekitGuide sur l'alignement des LLMs: RLHF, DPO, IPO, simulated preference optimization et évaluation des alignements.
Hugging Face Alignment HandbookCours officiel Hugging Face couvrant fine-tuning avec Transformers, PEFT, LoRA, et cas d'usage pratiques.
https://huggingface.co/learn/nlp-course/Cours court par Andrew Ng sur Reinforcement Learning from Human Feedback (RLHF) pour aligner les LLMs.
https://www.deeplearning.ai/courses/Cours top-down couvrant fine-tuning, transfer learning et techniques d'optimisation pratiques.
https://course.fast.ai/Cours universitaire sur Large Language Models couvrant fine-tuning, adaptation et déploiement.
https://stanford-cs324.github.io/Framework all-in-one pour fine-tuning. Configuration YAML simple, support complet LoRA, QLoRA, DPO, multi-GPU.
https://github.com/OpenAccess-AI-Collective/axolotlFramework d'optimisation pour accélérer fine-tuning jusqu'à 2x. Memory-efficient, compatible NVIDIA/AMD.
https://github.com/unslothai/unslothLibrairie officielle Hugging Face pour RLHF, DPO, PPO. Utilisation facile avec Transformers et Datasets.
https://github.com/huggingface/trlOutil pour fusionner et combiner des modèles fine-tunés. Techniques SLERP, TIES, Task Arithmetic.
https://github.com/cg123/mergekitPlateforme de tracking, monitoring et evaluation. Enregistrez hyperparamètres, métriques, et comparez runs.
https://wandb.ai/Plateforme pour partager et collaborer. Uploades modèles, datasets, et applications avec versioning.
https://huggingface.co/hubPlateforme cloud GPU avec économie pay-as-you-go. Support H100, A100, RTX. Intégration seamless Jupyter, SSH.
https://www.runpod.io/Cloud GPU haute performance. H100, A100, RTX 6000. Support multi-GPU, CUDA, PyTorch pré-installé.
https://lambdalabs.com/Marketplace peer-to-peer pour GPU à bas coût. Tarifs flexibles, support multi-provider, bidding system.
https://www.vast.ai/Notebooks Jupyter gratuits avec GPUs T4. Limités mais parfaits pour expérimenter et prototypes.
https://colab.google.com/Plateforme ML avec GPUs, Gradient notebooks et deployment. Support multi-GPU, persistent storage.
https://www.paperspace.com/Subreddit très actif sur LLMs open source, quantization, fine-tuning local et déploiement.
https://www.reddit.com/r/LocalLLaMA/Forums officiels pour questions sur Transformers, fine-tuning, datasets et deployment.
https://discuss.huggingface.co/Serveur Discord actif pour Axolotl. Support, discussions fine-tuning et sharing d'expériences.
https://discord.gg/axolotlCommunauté derrière Axolotl et autres outils open source pour LLMs. Contribution bienvenue.
https://www.openaccess.ai/