Architecture Technique
Comment ça fonctionne ?
Une plongée dans l'architecture LLM, RAG et agents qui propulse cette démonstration. Du modèle au résultat, en toute transparence.
Flux de données — Requête utilisateur → Réponse LLM
Utilisateur
Interface web
→
FastAPI
Backend Python
→
RAG Engine
Contexte docs
→
LiteLLM
Gateway :4010
→
Qwen3-80B
NVIDIA NIM
→
Réponse
JSON → UI
Le cycle RAG en détail
Retrieval Augmented Generation — comment le modèle accède à vos données sans les mémoriser
📥
Ingestion
Documents chargés et découpés en chunks
🔢
Vectorisation
Embedding des chunks (vecteurs sémantiques)
🔍
Recherche
Similarité cosinus avec la question
💉
Injection
Contexte injecté dans le prompt LLM
✨
Génération
LLM génère la réponse ancrée
Les 4 couches de l'architecture
01
Interface Utilisateur
HTML / CSS / JavaScript vanilla
Interface web moderne et responsive, sans framework JavaScript lourd. Conçue pour la performance et la rapidité de chargement. Appels API asynchrones avec fetch() natif.
Design system NVIDIA (vert #76b900, fond sombre)
Rendu markdown côté client pour les réponses LLM
Indicateurs de chargement et gestion d'erreurs
Responsive design pour tous les écrans
02
Backend API
FastAPI + Python 3.11 + Uvicorn
Framework Python haute performance basé sur ASGI, capable de gérer des centaines de requêtes simultanées. Gestion asynchrone des appels LLM pour éviter les blocages.
Routes dédiées pour chaque démo (RAG, Support, Copilote)
Contextes documentaires pré-chargés en mémoire
Gestion de l'historique de conversation côté client
Déploiement via Docker (container isolé)
03
LiteLLM Gateway
Proxy unifié · Port 4010 · API OpenAI-compatible
Couche d'abstraction qui normalise les appels vers différents LLM derrière une interface unique compatible OpenAI. Gère l'authentification, le rate limiting et la journalisation.
Interface OpenAI-compatible (drop-in replacement)
Authentification par master key (Bearer token)
Support multi-modèles (switching sans changement de code)
Hébergé sur le NAS local (192.168.1.136:4010)
04
Modèle LLM
Qwen3-80B-A3B-Instruct · NVIDIA NIM
Modèle de langue de 80 milliards de paramètres en architecture Mixture of Experts (MoE). Seulement 3B paramètres actifs par requête, permettant une inférence rapide avec des capacités de raisonnement de niveau état de l'art.
Architecture MoE : efficience computationnelle maximale
Fenêtre de contexte 128K tokens (≈ 96 000 mots)
Support multilingue : 29 langues dont FR et EN
Inférence 100% on-premise, données jamais exposées
Stack technologique complète
Python 3.11
Runtime backend
FastAPI
Framework API async
Uvicorn
Serveur ASGI
LiteLLM
LLM Gateway
Docker
Containerisation
Qwen3-80B
LLM principal
NVIDIA NIM
Inférence GPU
Jinja2
Templating HTML
🔒 Sécurité & Confidentialité des données
Contrairement aux solutions SaaS, cette architecture conserve toutes vos données sur vos propres serveurs. Aucune donnée n'est envoyée à des API cloud externes (OpenAI, Anthropic, Google...).
- ✓ Documents confidentiels traités localement
- ✓ Aucun logging externe des conversations
- ✓ Conformité RGPD facilitée
- ✓ Réseau interne uniquement (LAN)
- ✓ Authentification par token Bearer
- ✓ Docker containerisation isolée
- ✓ Peut fonctionner sans accès internet