Endpoint provider
Provider endpoint
Twoody Server appelle un endpoint OpenAI-compatible ou un adapter explicite, avec URL, modèle, timeout et limites déclarés côté serveur.
Twoody Server calls an OpenAI-compatible endpoint or explicit adapter, with URL, model, timeout and limits declared server-side.
Sizing machine
Machine sizing
RAM, GPU memory, stockage des poids, context window et quantization décident quels modèles restent confortables.
RAM, GPU memory, weight storage, context window and quantization determine which models stay comfortable.
Signaux d'exploitation
Operations signals
Health check, latence, tok/s, modèle actif et indisponibilité doivent rester visibles pour éviter les bascules opaques.
Health check, latency, tok/s, active model and unavailability should stay visible to avoid opaque switching.