Ressources - Phase 2 : Modèles Open Source & Inférence Locale

Cette page regroupe l'ensemble des ressources essentielles pour approfondir vos connaissances sur les modèles open source et l'inférence locale. Explorez la documentation officielle, les livres de référence, les cours en ligne et les outils pour maîtriser l'IA générative open source.

1. Documentation Officielle

Hugging Face Transformers

Documentation complète de la bibliothèque Transformers pour utiliser des milliers de modèles pré-entraînés.

Consulter

Hugging Face Hub

Guide d'utilisation du Hub pour télécharger, partager et collaborer sur des modèles et datasets.

Consulter

Ollama

Documentation pour exécuter des LLMs localement de manière simple et efficace.

Consulter

llama.cpp

Inférence LLM en C/C++ pour des performances optimales sur CPU et GPU.

Consulter

vLLM

Bibliothèque d'inférence haute performance pour LLMs avec optimisations avancées.

Consulter

Sentence Transformers

Framework pour créer des embeddings de texte et effectuer des recherches sémantiques.

Consulter

Diffusers

Bibliothèque Hugging Face pour les modèles de diffusion (Stable Diffusion, FLUX, etc.).

Consulter

OpenAI API Specification

Spécification de l'API OpenAI, compatible avec de nombreux serveurs d'inférence locaux.

Consulter

2. Livres de Référence

Build a Large Language Model From Scratch
Auteur : Sebastian Raschka
Construisez votre propre LLM étape par étape pour comprendre les mécanismes internes des modèles de langage.
Natural Language Processing with Transformers
Auteurs : Lewis Tunstall, Leandro von Werra, Thomas Wolf
Guide pratique pour utiliser la bibliothèque Transformers dans des applications réelles.
LLM Fine-Tuning with Open Models
Auteur : Husn Ara
Techniques avancées de fine-tuning pour adapter les LLMs open source à vos besoins.
Generative Deep Learning, 2nd Edition
Auteur : David Foster
Exploration approfondie des modèles génératifs incluant les VAEs, GANs et diffusion models.
Designing Machine Learning Systems
Auteur : Chip Huyen
Architecture et design de systèmes ML en production, incluant le déploiement de modèles.
AI Engineering
Auteur : Chip Huyen
Pratiques d'ingénierie pour construire des applications d'IA robustes et scalables.

3. Cours en Ligne

Hugging Face NLP Course

Cours gratuit et complet sur le traitement du langage naturel avec Transformers.

Accéder

fast.ai - Practical Deep Learning

Formation pratique au deep learning avec approche top-down axée sur les applications.

Accéder

Neural Networks: Zero to Hero

Série YouTube d'Andrej Karpathy pour construire des réseaux neuronaux from scratch.

Accéder

DataCamp - Working with Hugging Face

Cours interactif pour maîtriser l'écosystème Hugging Face et ses outils.

Accéder

DeepLearning.AI - Large Language Models

Cours d'Andrew Ng sur les LLMs, leur fonctionnement et leurs applications.

Accéder

Coursera ML Specialization

Spécialisation en Machine Learning couvrant les fondamentaux jusqu'aux techniques avancées.

Accéder

Stanford CS324 - Large Language Models

Cours universitaire de Stanford sur les fondations et applications des LLMs.

Accéder

Local LLM Hosting Guide

Guide pratique pour héberger et optimiser des LLMs sur votre infrastructure locale.

Accéder

4. Outils d'Inférence Locale

Ollama

Solution simple pour exécuter des LLMs localement avec gestion automatique des modèles.

vLLM

Serveur d'inférence haute performance avec optimisations PagedAttention.

llama.cpp

Inférence optimisée en C++ supportant quantification et CPU/GPU.

LM Studio

Interface graphique conviviale pour télécharger et exécuter des LLMs.

LocalAI

Alternative open source compatible API OpenAI pour inférence locale.

TGI (Text Generation Inference)

Solution Hugging Face pour déployer des LLMs en production.

Open WebUI

Interface web moderne pour interagir avec des modèles locaux type ChatGPT.

BentoML

Framework pour packager et déployer des modèles ML en production.

Gradio

Création rapide d'interfaces web pour démonstration de modèles ML.

Jan

Application desktop privacy-first pour exécuter des LLMs 100% offline.

5. Modèles Open Source Populaires

Modèle	Taille	Licence	Point Fort
Llama 4.1	8B - 405B	Llama	Performance généraliste, multilingue, instruction-following
DeepSeek V3	671B	MIT	Architecture MoE efficace, excellent rapport qualité/coût
DeepSeek R1	70B	MIT	Raisonnement avancé, mathématiques, logique
Mistral Large	123B	Apache 2.0	Multilingue européen, code, raisonnement
Mistral Small	22B	Apache 2.0	Efficacité, latence faible, usage local
Qwen 3	1.8B - 72B	Apache 2.0	Multilingue asiatique, très efficace
Gemma 3	2B - 27B	Gemma	Compact, rapide, sécurisé (Google)
Phi-4	14B	MIT	Petit mais puissant, raisonnement (Microsoft)
Command R+	104B	CC-BY-NC	RAG optimisé, recherche, citations (Cohere)
Whisper v3	1.5B	MIT	Speech-to-text multilingue (OpenAI)
Stable Diffusion 3.5	8B	SAI Community	Génération d'images haute qualité
FLUX.1	12B	Apache 2.0	Images photoréalistes, architecture innovante
StarCoder 2	3B - 15B	Apache 2.0	Génération de code, 600+ langages

6. Communautés et Forums

r/LocalLLaMA

Subreddit dédié à l'exécution locale de LLMs, guides et benchmarks.

Rejoindre

Hugging Face Forums

Forum officiel pour discuter de modèles, datasets et bibliothèques HF.

Rejoindre

Discord Ollama

Communauté active d'utilisateurs Ollama pour support et partage.

Rejoindre

Discord LangChain

Discussions sur LangChain, agents et applications LLM.

Rejoindre

r/StableDiffusion

Communauté pour la génération d'images avec Stable Diffusion et alternatives.

Rejoindre

GGML/llama.cpp Discussions

Discussions techniques sur llama.cpp, optimisations et quantification.

Rejoindre