Architecture Technique

Flux de données — Requête utilisateur → Réponse LLM

👤

Utilisateur

Interface web

→

⚡

FastAPI

Backend Python

→

📑RAG Engine
Contexte docs

→

🔌

LiteLLM

Gateway :4010

→

🧠Qwen3-80B
NVIDIA NIM

→

✨

Réponse

JSON → UI

Le cycle RAG en détail

Retrieval Augmented Generation — comment le modèle accède à vos données sans les mémoriser

📥

Ingestion

Documents chargés et découpés en chunks

🔢

Vectorisation

Embedding des chunks (vecteurs sémantiques)

🔍

Recherche

Similarité cosinus avec la question

💉

Injection

Contexte injecté dans le prompt LLM

✨

Génération

LLM génère la réponse ancrée

Les 4 couches de l'architecture

🖥️

Interface Utilisateur

HTML / CSS / JavaScript vanilla

Interface web moderne et responsive, sans framework JavaScript lourd. Conçue pour la performance et la rapidité de chargement. Appels API asynchrones avec fetch() natif.

Design system NVIDIA (vert #76b900, fond sombre)

Rendu markdown côté client pour les réponses LLM

Indicateurs de chargement et gestion d'erreurs

Responsive design pour tous les écrans

⚡

Backend API

FastAPI + Python 3.11 + Uvicorn

Framework Python haute performance basé sur ASGI, capable de gérer des centaines de requêtes simultanées. Gestion asynchrone des appels LLM pour éviter les blocages.

Routes dédiées pour chaque démo (RAG, Support, Copilote)

Contextes documentaires pré-chargés en mémoire

Gestion de l'historique de conversation côté client

Déploiement via Docker (container isolé)

🔌

LiteLLM Gateway

Proxy unifié · Port 4010 · API OpenAI-compatible

Couche d'abstraction qui normalise les appels vers différents LLM derrière une interface unique compatible OpenAI. Gère l'authentification, le rate limiting et la journalisation.

Interface OpenAI-compatible (drop-in replacement)

Authentification par master key (Bearer token)

Support multi-modèles (switching sans changement de code)

Hébergé sur le NAS local (192.168.1.136:4010)

🧠

Modèle LLM

Qwen3-80B-A3B-Instruct · NVIDIA NIM

Modèle de langue de 80 milliards de paramètres en architecture Mixture of Experts (MoE). Seulement 3B paramètres actifs par requête, permettant une inférence rapide avec des capacités de raisonnement de niveau état de l'art.

Architecture MoE : efficience computationnelle maximale

Fenêtre de contexte 128K tokens (≈ 96 000 mots)

Support multilingue : 29 langues dont FR et EN

Inférence 100% on-premise, données jamais exposées

Stack technologique complète

🐍

Python 3.11

Runtime backend

⚡

FastAPI

Framework API async

🌐

Uvicorn

Serveur ASGI

🔌

LiteLLM

LLM Gateway

🐋

Docker

Containerisation

🧠

Qwen3-80B

LLM principal

🟢

NVIDIA NIM

Inférence GPU

📦

Jinja2

Templating HTML

🔒 Sécurité & Confidentialité des données

Contrairement aux solutions SaaS, cette architecture conserve toutes vos données sur vos propres serveurs. Aucune donnée n'est envoyée à des API cloud externes (OpenAI, Anthropic, Google...).

✓ Documents confidentiels traités localement
✓ Aucun logging externe des conversations
✓ Conformité RGPD facilitée

✓ Réseau interne uniquement (LAN)
✓ Authentification par token Bearer
✓ Docker containerisation isolée
✓ Peut fonctionner sans accès internet

Comment ça fonctionne ?

Le cycle RAG en détail

Les 4 couches de l'architecture

Stack technologique complète

🔒 Sécurité & Confidentialité des données