Commencer simple Start simple
Choisissez Ollama si l'objectif est de valider vite un local LLM server avec un endpoint facile à déclarer. Choose Ollama if the goal is quickly validating a local LLM server with an easy endpoint to register.
La marque produit reste Twoody Private LLM. Cette page aide à choisir la brique technique qui sert les modèles : Ollama pour démarrer, MLX sur Mac Apple Silicon, llama.cpp pour GGUF portable, vLLM pour débit GPU, TGI pour serving Hugging Face. The product brand remains Twoody Private LLM. This page helps choose the technical block that serves models: Ollama to start, MLX on Apple Silicon Mac, llama.cpp for portable GGUF, vLLM for GPU throughput, TGI for Hugging Face serving.
Choisissez Ollama si l'objectif est de valider vite un local LLM server avec un endpoint facile à déclarer. Choose Ollama if the goal is quickly validating a local LLM server with an easy endpoint to register.
Choisissez MLX quand Apple Silicon est la machine cible et que l'inférence locale doit rester proche de Desktop Connector. Choose MLX when Apple Silicon is the target machine and local inference should stay close to Desktop Connector.
Choisissez vLLM ou TGI quand GPU, débit, concurrence, streaming ou exploitation privée deviennent prioritaires. Choose vLLM or TGI when GPU, throughput, concurrency, streaming or private operations become priorities.
Pas forcément. L'utilisateur peut rester dans Twoody. Le runtime est surtout un choix d'admin : machine, endpoint, modèle, limites et observabilité. Not necessarily. The user can stay in Twoody. The runtime is mostly an admin choice: machine, endpoint, model, limits and observability.
Ollama est souvent le départ le plus simple. MLX est pertinent sur Mac Apple Silicon. llama.cpp sert les modèles GGUF portables. vLLM et TGI deviennent utiles quand le serving privé compte. Ollama is often the simplest start. MLX is relevant on Apple Silicon Mac. llama.cpp serves portable GGUF models. vLLM and TGI become useful when private serving matters.