Local LLM Server

Un local LLM server pour Twoody Private Hub. A local LLM server for Twoody Private Hub.

Cette page technique cible le besoin local LLM server : installer un runtime, choisir une machine, router les providers, lire les benchmarks et comprendre comment Twoody Server garde l'expérience stable. This technical page targets the local LLM server need: install a runtime, choose a machine, route providers, read benchmarks and understand how Twoody Server keeps the experience stable.

Ce que ça fait What it does

Installation runtime Runtime setup

Ollama simplifie le démarrage, MLX cible Apple Silicon, llama.cpp privilégie la portabilité, vLLM et TGI visent le serving. Ollama simplifies startup, MLX targets Apple Silicon, llama.cpp favors portability, vLLM and TGI target serving.

Provider routing Provider routing

Twoody Server garde une interface stable pendant que vous changez de runtime ou de modèle. Twoody Server keeps a stable interface while you change runtime or model.

Benchmarks lisibles Readable benchmarks

Les tok/s dépendent de la machine, quantization, contexte et charge ; les chiffres restent des ordres de grandeur. Tok/s depend on machine, quantization, context and load; figures stay rough estimates.

Comment ça marche How it works

01

Dimensionner Size

RAM et GPU déterminent les modèles viables. RAM and GPU determine viable models.

02

Installer Install

Installer un runtime et télécharger les poids. Install a runtime and download weights.

03

Exposer Expose

Déclarer un endpoint que Twoody Server peut appeler. Register an endpoint Twoody Server can call.

04

Mesurer Measure

Comparer latence, tok/s, mémoire et qualité perçue. Compare latency, tok/s, memory and perceived quality.

Détails techniques Technical details

Endpoint provider Provider endpoint

Twoody Server appelle un endpoint OpenAI-compatible ou un adapter explicite, avec URL, modèle, timeout et limites déclarés côté serveur. Twoody Server calls an OpenAI-compatible endpoint or explicit adapter, with URL, model, timeout and limits declared server-side.

Sizing machine Machine sizing

RAM, GPU memory, stockage des poids, context window et quantization décident quels modèles restent confortables. RAM, GPU memory, weight storage, context window and quantization determine which models stay comfortable.

Signaux d'exploitation Operations signals

Health check, latence, tok/s, modèle actif et indisponibilité doivent rester visibles pour éviter les bascules opaques. Health check, latency, tok/s, active model and unavailability should stay visible to avoid opaque switching.

FAQ

Quel runtime choisir pour commencer ? Which runtime should I start with?

Ollama est souvent le plus direct pour essayer. MLX est pertinent sur Mac Apple Silicon. llama.cpp est portable. vLLM et TGI deviennent utiles pour du serving plus spécialisé. Ollama is often the most direct way to try. MLX is relevant on Apple Silicon Mac. llama.cpp is portable. vLLM and TGI become useful for more specialized serving.

Local LLM Server est-il une marque Twoody ? Is Local LLM Server a Twoody brand?

Non. C'est un libellé technique et SEO. Le nom produit public reste Twoody Private LLM. No. It is a technical and SEO label. The public product name remains Twoody Private LLM.