Ressources Complémentaires

Phase 2 : Modèles Open Source & Inférence Locale

Cette page regroupe l'ensemble des ressources essentielles pour approfondir vos connaissances sur les modèles open source et l'inférence locale. Explorez la documentation officielle, les livres de référence, les cours en ligne et les outils pour maîtriser l'IA générative open source.

1. Documentation Officielle

Hugging Face Transformers

Documentation complète de la bibliothèque Transformers pour utiliser des milliers de modèles pré-entraînés.

Consulter

Hugging Face Hub

Guide d'utilisation du Hub pour télécharger, partager et collaborer sur des modèles et datasets.

Consulter

Ollama

Documentation pour exécuter des LLMs localement de manière simple et efficace.

Consulter

llama.cpp

Inférence LLM en C/C++ pour des performances optimales sur CPU et GPU.

Consulter

vLLM

Bibliothèque d'inférence haute performance pour LLMs avec optimisations avancées.

Consulter

Sentence Transformers

Framework pour créer des embeddings de texte et effectuer des recherches sémantiques.

Consulter

Diffusers

Bibliothèque Hugging Face pour les modèles de diffusion (Stable Diffusion, FLUX, etc.).

Consulter

OpenAI API Specification

Spécification de l'API OpenAI, compatible avec de nombreux serveurs d'inférence locaux.

Consulter

2. Livres de Référence

  • Build a Large Language Model From Scratch
    Auteur : Sebastian Raschka
    Construisez votre propre LLM étape par étape pour comprendre les mécanismes internes des modèles de langage.
  • Natural Language Processing with Transformers
    Auteurs : Lewis Tunstall, Leandro von Werra, Thomas Wolf
    Guide pratique pour utiliser la bibliothèque Transformers dans des applications réelles.
  • LLM Fine-Tuning with Open Models
    Auteur : Husn Ara
    Techniques avancées de fine-tuning pour adapter les LLMs open source à vos besoins.
  • Generative Deep Learning, 2nd Edition
    Auteur : David Foster
    Exploration approfondie des modèles génératifs incluant les VAEs, GANs et diffusion models.
  • Designing Machine Learning Systems
    Auteur : Chip Huyen
    Architecture et design de systèmes ML en production, incluant le déploiement de modèles.
  • AI Engineering
    Auteur : Chip Huyen
    Pratiques d'ingénierie pour construire des applications d'IA robustes et scalables.

3. Cours en Ligne

Hugging Face NLP Course

Cours gratuit et complet sur le traitement du langage naturel avec Transformers.

Accéder

fast.ai - Practical Deep Learning

Formation pratique au deep learning avec approche top-down axée sur les applications.

Accéder

Neural Networks: Zero to Hero

Série YouTube d'Andrej Karpathy pour construire des réseaux neuronaux from scratch.

Accéder

DataCamp - Working with Hugging Face

Cours interactif pour maîtriser l'écosystème Hugging Face et ses outils.

Accéder

DeepLearning.AI - Large Language Models

Cours d'Andrew Ng sur les LLMs, leur fonctionnement et leurs applications.

Accéder

Coursera ML Specialization

Spécialisation en Machine Learning couvrant les fondamentaux jusqu'aux techniques avancées.

Accéder

Stanford CS324 - Large Language Models

Cours universitaire de Stanford sur les fondations et applications des LLMs.

Accéder

Local LLM Hosting Guide

Guide pratique pour héberger et optimiser des LLMs sur votre infrastructure locale.

Accéder

4. Outils d'Inférence Locale

Ollama

Solution simple pour exécuter des LLMs localement avec gestion automatique des modèles.

vLLM

Serveur d'inférence haute performance avec optimisations PagedAttention.

llama.cpp

Inférence optimisée en C++ supportant quantification et CPU/GPU.

LM Studio

Interface graphique conviviale pour télécharger et exécuter des LLMs.

LocalAI

Alternative open source compatible API OpenAI pour inférence locale.

TGI (Text Generation Inference)

Solution Hugging Face pour déployer des LLMs en production.

Open WebUI

Interface web moderne pour interagir avec des modèles locaux type ChatGPT.

BentoML

Framework pour packager et déployer des modèles ML en production.

Gradio

Création rapide d'interfaces web pour démonstration de modèles ML.

Jan

Application desktop privacy-first pour exécuter des LLMs 100% offline.

5. Modèles Open Source Populaires

Modèle Taille Licence Point Fort
Llama 4.1 8B - 405B Llama Performance généraliste, multilingue, instruction-following
DeepSeek V3 671B MIT Architecture MoE efficace, excellent rapport qualité/coût
DeepSeek R1 70B MIT Raisonnement avancé, mathématiques, logique
Mistral Large 123B Apache 2.0 Multilingue européen, code, raisonnement
Mistral Small 22B Apache 2.0 Efficacité, latence faible, usage local
Qwen 3 1.8B - 72B Apache 2.0 Multilingue asiatique, très efficace
Gemma 3 2B - 27B Gemma Compact, rapide, sécurisé (Google)
Phi-4 14B MIT Petit mais puissant, raisonnement (Microsoft)
Command R+ 104B CC-BY-NC RAG optimisé, recherche, citations (Cohere)
Whisper v3 1.5B MIT Speech-to-text multilingue (OpenAI)
Stable Diffusion 3.5 8B SAI Community Génération d'images haute qualité
FLUX.1 12B Apache 2.0 Images photoréalistes, architecture innovante
StarCoder 2 3B - 15B Apache 2.0 Génération de code, 600+ langages

6. Communautés et Forums

r/LocalLLaMA

Subreddit dédié à l'exécution locale de LLMs, guides et benchmarks.

Rejoindre

Hugging Face Forums

Forum officiel pour discuter de modèles, datasets et bibliothèques HF.

Rejoindre

Discord Ollama

Communauté active d'utilisateurs Ollama pour support et partage.

Rejoindre

Discord LangChain

Discussions sur LangChain, agents et applications LLM.

Rejoindre

r/StableDiffusion

Communauté pour la génération d'images avec Stable Diffusion et alternatives.

Rejoindre

GGML/llama.cpp Discussions

Discussions techniques sur llama.cpp, optimisations et quantification.

Rejoindre