Twoody Private LLM

Choisissez, installez et pilotez vos modèles open-source.

Private LLM est la capacité qui permet à Twoody Server de router les requêtes vers un modèle que vous contrôlez : MLX sur Mac, Ollama, llama.cpp, vLLM, TGI ou un provider cloud explicitement configuré.

MLX sur Mac

Twoody Mac installe la stack MLX, télécharge les poids et expose un serveur local compatible.

Providers remplaçables

OpenAI-compatible permet de changer de runtime sans réécrire l'expérience produit.

Modèle par usage

Rapide, code, raisonnement, documents longs : le bon modèle dépend de la tâche.

Comment ça marche

01

Détecter

Twoody connaît les machines connectées et leurs capacités.

02

Installer

L'utilisateur lance le téléchargement du modèle depuis l'app.

03

Sélectionner

Le modèle devient le provider actif pour le mode choisi.

04

Observer

RAM, latence et tok/s indiquent si la machine suit.

Détails importants

Guide machines

  • 24-32 GB RAM : essais, usage solo, modèles 3B-8B.
  • 48-64 GB RAM : usage confortable, Qwen 8B/14B, Qwen Coder 14B.
  • 128 GB+ : équipe, Qwen 32B, marge pour contexte et documents.

À dire sur les benchmarks

  • Les tok/s sont des ordres de grandeur mesurés via MLX.
  • La vitesse dépend de la machine, du contexte, de la quantization et de la charge.
  • La qualité dépend autant du modèle que du prompt, des outils et des documents.

FAQ

Est-ce uniquement local ?

Non. Private LLM met le mode local au premier plan, mais Twoody Server peut aussi router vers un provider cloud explicitement configuré.

Qui choisit le modèle ?

L'utilisateur ou l'admin selon le contexte. Le site doit montrer que l'installation et la sélection peuvent se faire à distance.