Local LLM Deployment

Суть

Open-weight модель (Llama, Qwen, Mistral) скачивается и крутится у тебя. ollama run qwen3:8b поднимает локальный inference-сервер с OpenAI-совместимым API, к которому подключаются агенты и оболочки.

Зачем это нужно

Конфиденциальность/compliance — данные не покидают периметр.
Стоимость — нет оплаты за токены (платишь за железо).
Подходит для простых/частых шагов агента, где не нужен фронтир (см. Model Selection).

Как работает

Что влезает: на MacBook Air M4 16GB — Qwen3-4B «оптимум для агентов», Qwen3-8B — лучшее качество.
Установка: curl -fsSL https://ollama.com/install.sh | sh → ollama run qwen3:8b; контекст: OLLAMA_CONTEXT_LENGTH=131072.
Оболочки (self-host через Docker): Dify (RAG/агенты/аналитика из коробки), Open WebUI (офлайн, LDAP), LobeChat (42 провайдера). Нужно: сервер, Docker, API-ключи провайдеров.
На практике (первый агент): «более-менее разумная» локальная модель через Ollama требует ~12–15 ГБ RAM — на типовом ноутбуке тяжело, поэтому на старте часто берут облачный API («не насиловать ноутбуки»), а локаль оставляют для приватности (см. экономику в Model Selection). Векторный индекс для RAG поднимают на FAISS (можно проиндексировать корпус в облаке и перенести индекс на свою машину, см. Vector Store Persistence); запускается и в Google Colab.
Локальный RAG-стек (практика): компактная Llama 3.1 8B в Colab + векторные хранилища в оперативной памяти (Chroma / Qdrant / FAISS, см. Vector Databases) + локальная модель эмбеддингов (~100–150 МБ, кэшируется на диск). GPU для инференса эмбеддингов не нужен — хватает CPU.
Коробочные RAG-платформы (self-host через Docker): помимо Dify — RAGFlow (глубокий парсинг таблиц/формул, GraphRAG/RAPTOR, реранкинг из коробки; Docker Compose, 2 ГБ slim или 9 ГБ full с моделями; Ollama/vLLM для локальных LLM, полная изоляция данных).
Инференс упирается в память: VRAM ≈ веса модели + KV Cache (растёт с длиной контекста). Поэтому при локальном запуске важны квантизация (Q4 и т.п.) и GQA, а не только число параметров. (Обучение моделей — отдельная история про GPU-фермы; для применения в агентах это не критично.)

Связано с

Model Selection — локальная модель как «дешёвый» tier
AI Agent — где агент может работать офлайн/локально
KV Cache — VRAM при инференсе = веса + KV-cache

Открытые вопросы

Ollama vs vLLM — когда что (throughput/латентность)
квантизация (Q4 и т.п.) — отдельная заметка (TODO)