llama.cpp runtime

llama.cpp pour une inférence locale portable. llama.cpp for portable local inference.

llama.cpp est une brique technique solide pour servir des modèles, souvent en GGUF et quantifiés. Twoody l'utilise comme runtime possible derrière une expérience app, documents et permissions. llama.cpp is a strong technical building block for serving models, often as quantized GGUF. Twoody can use it as a runtime behind an app, documents and permissions experience.

Voir Private LLM See Private LLM Voir Local LLM Server See Local LLM Server

llama.cpp dans l'architecture llama.cpp in the architecture

llama.cpp exécute le modèle. Twoody Server gère l'orchestration produit et l'accès aux documents. llama.cpp runs the model. Twoody Server handles product orchestration and document access.

GGUF GGUF

Modèles quantifiés. Quantized models.

llama.cpp server llama.cpp server

Endpoint local ou privé. Local or private endpoint.

Twoody Server Twoody Server

Routage et contexte. Routing and context.

Permissions Permissions

Actions et documents contrôlés. Controlled actions and documents.

Ce que ça fait What it does

GGUF et quantization GGUF and quantization

La page garde les mots-clés utiles aux utilisateurs qui cherchent un runtime local efficace. The page keeps useful keywords for users looking for an efficient local runtime.

Large compatibilité Broad compatibility

llama.cpp est souvent choisi pour sa portabilité matérielle. llama.cpp is often chosen for hardware portability.

Pas l'expérience finale Not the final experience

Twoody transforme le runtime en assistant utilisable par les apps. Twoody turns the runtime into an assistant usable by apps.

Comment ça marche How it works

Choisir un modèle Choose a model

Vérifier format, quantization et mémoire. Check format, quantization and memory.

Lancer le serveur Run the server

Exposer un endpoint stable. Expose a stable endpoint.

Router via Twoody Route through Twoody

Déclarer le provider dans Twoody Server. Register the provider in Twoody Server.

Ajuster Tune

Mesurer latence, qualité et taille de contexte. Measure latency, quality and context size.

Détails techniques Technical details

GGUF GGUF

Les modèles GGUF et la quantization fixent le compromis mémoire, vitesse et qualité perçue. GGUF models and quantization set the memory, speed and perceived-quality tradeoff.

Serveur local Local server

llama.cpp server peut fournir un endpoint privé ; Twoody Server déclare le modèle, les timeouts et la limite de contexte. llama.cpp server can provide a private endpoint; Twoody Server declares the model, timeouts and context limit.

Réglages Tuning

Context window, threads, GPU layers et batch size influencent la latence et le débit. Context window, threads, GPU layers and batch size influence latency and throughput.

FAQ

Pourquoi llama.cpp avec Twoody ? Why llama.cpp with Twoody?

llama.cpp sert le modèle. Twoody ajoute l'app, la voix, les documents, les permissions et le tunnel. llama.cpp serves the model. Twoody adds the app, voice, documents, permissions and tunnel.

Est-ce réservé aux développeurs ? Is it only for developers?

Le runtime lui-même est technique. Twoody aide à masquer cette complexité aux utilisateurs finaux. The runtime itself is technical. Twoody helps hide that complexity from end users.

Sources officielles Official sources

ggml-org/llama.cpp GitHub

Pages liees Related pages

Ollama runtime Ollama runtime MLX runtime MLX runtime vLLM runtime vLLM runtime Guide des runtimes Runtime guide TGI runtime TGI runtime