Twoody LLM runtimes

Choisir le bon runtime pour Twoody Private LLM. Choose the right runtime for Twoody Private LLM.

La marque produit reste Twoody Private LLM. Cette page aide à choisir la brique technique qui sert les modèles : Ollama pour démarrer, MLX sur Mac Apple Silicon, llama.cpp pour GGUF portable, vLLM pour débit GPU, TGI pour serving Hugging Face. The product brand remains Twoody Private LLM. This page helps choose the technical block that serves models: Ollama to start, MLX on Apple Silicon Mac, llama.cpp for portable GGUF, vLLM for GPU throughput, TGI for Hugging Face serving.

Matrice de choix Choice matrix

Runtime

Ollama

Idéal pour Best for
Démarrage local rapide, prototypes, machines personnelles. Fast local start, prototypes, personal machines.
Machine Machine
Mac, Linux ou machine privée avec RAM suffisante. Mac, Linux or private machine with enough RAM.
Endpoint
API Ollama locale ou privée déclarée dans Twoody Server. Local or private Ollama API registered in Twoody Server.
Opérations Operations
Faible à moyen : installer, pull model, vérifier santé et latence. Low to medium: install, pull model, check health and latency.
À surveiller : RAM utilisée, tag modèle, context window, temps de chargement. Watch: RAM used, model tag, context window, load time.
Runtime

MLX

Idéal pour Best for
Mac Apple Silicon, inférence locale proche de l'utilisateur. Apple Silicon Mac, local inference close to the user.
Machine Machine
Mac M-series avec mémoire unifiée confortable. M-series Mac with comfortable unified memory.
Endpoint
Bridge ou wrapper compatible exposé au serveur. Bridge or compatible wrapper exposed to the server.
Opérations Operations
Moyen : gérer l'environnement Mac, modèles et stabilité locale. Medium: manage Mac environment, models and local stability.
À surveiller : Mémoire unifiée, pression mémoire, chauffe, tok/s. Watch: Unified memory, memory pressure, thermals, tok/s.
Runtime

llama.cpp

Idéal pour Best for
Modèles GGUF, portabilité matérielle, réglages fins. GGUF models, hardware portability, fine-grained tuning.
Machine Machine
CPU/GPU variés selon quantization et taille de modèle. Varied CPU/GPU setups depending on quantization and model size.
Endpoint
llama.cpp server comme endpoint local ou privé. llama.cpp server as a local or private endpoint.
Opérations Operations
Moyen : threads, GPU layers, context window, batch size. Medium: threads, GPU layers, context window, batch size.
À surveiller : Latence, qualité perçue, mémoire, limite de contexte. Watch: Latency, perceived quality, memory, context limit.
Runtime

vLLM

Idéal pour Best for
Serving privé à fort débit, GPU, usages équipe. High-throughput private serving, GPU, team usage.
Machine Machine
Serveur GPU dimensionné pour VRAM, concurrence et batch. GPU server sized for VRAM, concurrency and batching.
Endpoint
Backend vLLM déclaré comme provider privé. vLLM backend registered as a private provider.
Opérations Operations
Élevé : saturation GPU, queue depth, time-to-first-token. High: GPU saturation, queue depth, time-to-first-token.
À surveiller : Concurrence, erreurs provider, débit, coût d'inférence. Watch: Concurrency, provider errors, throughput, inference cost.
Runtime

TGI

Idéal pour Best for
Serving Hugging Face, modèles et artefacts déclarés côté infra. Hugging Face serving, models and artifacts declared on infra.
Machine Machine
Infrastructure contrôlée, souvent GPU, selon modèle et charge. Controlled infrastructure, often GPU, depending on model and load.
Endpoint
Endpoint TGI explicite routé par Twoody Server. Explicit TGI endpoint routed by Twoody Server.
Opérations Operations
Élevé : déploiement, streaming, saturation et versions. High: deployment, streaming, saturation and versions.
À surveiller : Streaming, latence, erreurs, versions de modèles. Watch: Streaming, latency, errors, model versions.

Décision rapide Quick decision

Commencer simple Start simple

Choisissez Ollama si l'objectif est de valider vite un local LLM server avec un endpoint facile à déclarer. Choose Ollama if the goal is quickly validating a local LLM server with an easy endpoint to register.

Rester sur Mac Stay on Mac

Choisissez MLX quand Apple Silicon est la machine cible et que l'inférence locale doit rester proche de Desktop Connector. Choose MLX when Apple Silicon is the target machine and local inference should stay close to Desktop Connector.

Passer en serving Move to serving

Choisissez vLLM ou TGI quand GPU, débit, concurrence, streaming ou exploitation privée deviennent prioritaires. Choose vLLM or TGI when GPU, throughput, concurrency, streaming or private operations become priorities.

FAQ

Faut-il exposer le runtime aux utilisateurs ? Should users see the runtime?

Pas forcément. L'utilisateur peut rester dans Twoody. Le runtime est surtout un choix d'admin : machine, endpoint, modèle, limites et observabilité. Not necessarily. The user can stay in Twoody. The runtime is mostly an admin choice: machine, endpoint, model, limits and observability.

Quel runtime choisir pour commencer ? Which runtime should I choose first?

Ollama est souvent le départ le plus simple. MLX est pertinent sur Mac Apple Silicon. llama.cpp sert les modèles GGUF portables. vLLM et TGI deviennent utiles quand le serving privé compte. Ollama is often the simplest start. MLX is relevant on Apple Silicon Mac. llama.cpp serves portable GGUF models. vLLM and TGI become useful when private serving matters.