Twoody Private LLM

Choisissez, installez et pilotez vos modèles open-source.

Private LLM est la capacité qui permet à Twoody Server de router les requêtes vers un modèle que vous contrôlez : MLX sur Mac, Ollama, llama.cpp, vLLM, TGI ou un provider cloud explicitement configuré.

Voir les machines Comparer Ollama

Ce que ça couvre

Installation à distance

Depuis mobile ou desktop, installer et sélectionner des modèles disponibles.

Statut réel

Machines en ligne, RAM, modèles téléchargés, latence et tok/s.

Pas de fallback caché

Le mode self-hosted doit échouer clairement si le modèle local n'est pas disponible.

MLX sur Mac

Twoody Mac installe la stack MLX, télécharge les poids et expose un serveur local compatible.

Providers remplaçables

OpenAI-compatible permet de changer de runtime sans réécrire l'expérience produit.

Modèle par usage

Rapide, code, raisonnement, documents longs : le bon modèle dépend de la tâche.

Comment ça marche

Détecter

Twoody connaît les machines connectées et leurs capacités.

Installer

L'utilisateur lance le téléchargement du modèle depuis l'app.

Sélectionner

Le modèle devient le provider actif pour le mode choisi.

Observer

RAM, latence et tok/s indiquent si la machine suit.

Détails importants

Guide machines

24-32 GB RAM : essais, usage solo, modèles 3B-8B.
48-64 GB RAM : usage confortable, Qwen 8B/14B, Qwen Coder 14B.
128 GB+ : équipe, Qwen 32B, marge pour contexte et documents.

À dire sur les benchmarks

Les tok/s sont des ordres de grandeur mesurés via MLX.
La vitesse dépend de la machine, du contexte, de la quantization et de la charge.
La qualité dépend autant du modèle que du prompt, des outils et des documents.

FAQ

Est-ce uniquement local ?

Non. Private LLM met le mode local au premier plan, mais Twoody Server peut aussi router vers un provider cloud explicitement configuré.

Qui choisit le modèle ?

L'utilisateur ou l'admin selon le contexte. Le site doit montrer que l'installation et la sélection peuvent se faire à distance.