Облачные API — это удобно. Пока у тебя есть интернет, деньги на подписку, и тебя устраивает, что каждый промпт читает кто-то ещё. Если хотя бы один пункт не подходит — добро пожаловать в локальный инференс.
Четыре причины запускать LLM на своём железе:
Два варианта. Оба рабочие, выбор зависит от того, насколько ты хочешь контролировать процесс.
llama.cpp — движок инференса на чистом C/C++. Работает на CPU, опционально GPU (CUDA, Metal, Vulkan). Никаких зависимостей, никакого Python. Скомпилировал — запустил. Поддерживает формат GGUF, который стал стандартом для квантизированных моделей.
Ollama — обёртка над llama.cpp с человеческим интерфейсом. Скачивает модели одной командой, управляет ими, выставляет API. Если не хочешь возиться с компиляцией и конфигами — это твой вариант.
# Установка ollama (Linux/macOS)
curl -fsSL https://ollama.com/install.sh | sh
# Или скачать бинарник с https://ollama.com/download
Две семейки, которые реально стоит запускать локально в 2026:
Llama 3.x (Meta) — рабочая лошадка. Хороша для английского, сносно справляется с русским. 8B параметров — входит в 8GB RAM. Есть версии 70B и 405B для тех, у кого серьёзное железо.
Qwen 2.5 / Qwen 3 (Alibaba) — лучший выбор для мультиязычных задач. Русский, китайский, код — на уровне. 7B версия конкурирует с Llama 3 8B, а местами обходит. Qwen 3 добавил thinking mode — цепочку рассуждений прямо в модели.
Оригинальные веса моделей весят десятки гигабайт и требуют GPU. Квантизация сжимает их до вменяемого размера с минимальной потерей качества.
Формат GGUF — единый контейнер: веса + токенайзер + метаданные в одном файле. Скачал — запустил.
| Квантизация | Размер (7B) | RAM | Качество |
|---|---|---|---|
Q4_K_M |
~4.1 GB | ~6 GB | Хорошее. Оптимальный баланс |
Q5_K_M |
~4.8 GB | ~7 GB | Очень хорошее. Чуть тяжелее |
Q8_0 |
~7.2 GB | ~9 GB | Почти без потерь. Если RAM позволяет |
Рекомендация: Q4_K_M — золотая середина. Потери качества минимальны, а разница в скорости и размере — существенна. Q5_K_M — если есть запас по памяти и хочется чуть точнее.
| Конфигурация | Что потянет |
|---|---|
| 8 GB RAM, любой x86_64 CPU | 7B модели (Q4_K_M). Базовый вариант |
| 16 GB RAM, 4+ ядер | 13B модели. Комфортная работа с 7B |
| 32 GB RAM или GPU 12GB+ | 33B–70B модели. Серьёзный уровень |
GPU кратно ускоряет генерацию, но не обязателен. На CPU тоже работает — просто медленнее. Apple Silicon (M1/M2/M3) — отличный вариант: unified memory позволяет грузить большие модели без дискретной видеокарты.
От нуля до работающей модели — две команды:
# Llama 3 8B
ollama run llama3
# Qwen 2.5 7B
ollama run qwen2.5
# Qwen 3 8B (с thinking mode)
ollama run qwen3
# Конкретная квантизация
ollama run llama3:8b-instruct-q5_K_M
Первый запуск скачает модель (~4-5 GB). Дальше всё локально.
Ollama поднимает API на localhost:11434. Можно дёргать из кода:
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5",
"prompt": "Объясни квантизацию нейросетей в трёх предложениях",
"stream": false
}'
# Клонировать и собрать
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && make -j$(nproc)
# Запустить модель
./llama-cli -m /path/to/model.gguf \
-p "Напиши функцию сортировки на Python" \
-n 512 -t 4
# Или поднять сервер с API
./llama-server -m /path/to/model.gguf \
--host 0.0.0.0 --port 8080
GGUF файлы берём с HuggingFace. Проверенные источники квантизаций: bartowski, TheBloke (легаси), Qwen official.
Портативная установка — всё на одном USB-накопителе. Воткнул в любой компьютер — запустил.
Что нужно:
# Структура флешки
/LLM/
├── ollama # бинарник
├── models/
│ ├── llama3-8b-q4_k_m.gguf
│ └── qwen2.5-7b-q4_k_m.gguf
└── run.sh # скрипт запуска
#!/bin/bash
# run.sh — запуск с флешки
export OLLAMA_MODELS="$(dirname "$0")/models"
export OLLAMA_HOST="127.0.0.1:11434"
"$(dirname "$0")/ollama" serve &
sleep 2
"$(dirname "$0")/ollama" run llama3
Внешний SSD вместо флешки — в разы быстрее загрузка модели. Обычная USB-флешка потянет, но первый запуск будет долгим. После загрузки в RAM скорость накопителя уже не важна.
Чего реально ждать. Модель 7B, квантизация Q4_K_M:
| Железо | Токенов/сек | Ощущение |
|---|---|---|
| i5/Ryzen 5, 16GB, CPU only | 8–15 | Печатает медленно, но читабельно |
| Apple M1/M2, 16GB | 25–40 | Комфортно. Как быстрый набор текста |
| RTX 3060 12GB | 40–60 | Быстро. Ответ за секунды |
| RTX 4090 24GB | 80–120 | Мгновенно |
Для 13B моделей — делим примерно на два. Для 70B — нужен GPU с 48GB VRAM или много RAM для CPU-инференса (медленно, но работает).
Ещё момент: первый токен всегда медленнее (prompt processing). Длинный промпт — ощутимая задержка перед первым словом ответа. Короткие промпты — почти мгновенно.
Локальные LLM — это не замена GPT-4 или Claude. Это другой инструмент для других задач. Приватный ассистент, офлайн-помощник, экспериментальная площадка. Модель на флешке — как швейцарский нож: не заменит мастерскую, но в поле незаменим.
Два гига на флешке. Ноль зависимостей от чужих серверов. Свой карманный ИИ.