tech

ИИ на флешке: запускаем Llama и Qwen локально

2026-03-07

Облачные API — это удобно. Пока у тебя есть интернет, деньги на подписку, и тебя устраивает, что каждый промпт читает кто-то ещё. Если хотя бы один пункт не подходит — добро пожаловать в локальный инференс.

Зачем вообще

Четыре причины запускать LLM на своём железе:

Инструменты

Два варианта. Оба рабочие, выбор зависит от того, насколько ты хочешь контролировать процесс.

llama.cpp — движок инференса на чистом C/C++. Работает на CPU, опционально GPU (CUDA, Metal, Vulkan). Никаких зависимостей, никакого Python. Скомпилировал — запустил. Поддерживает формат GGUF, который стал стандартом для квантизированных моделей.

Ollama — обёртка над llama.cpp с человеческим интерфейсом. Скачивает модели одной командой, управляет ими, выставляет API. Если не хочешь возиться с компиляцией и конфигами — это твой вариант.

# Установка ollama (Linux/macOS)
curl -fsSL https://ollama.com/install.sh | sh

# Или скачать бинарник с https://ollama.com/download

Модели

Две семейки, которые реально стоит запускать локально в 2026:

Llama 3.x (Meta) — рабочая лошадка. Хороша для английского, сносно справляется с русским. 8B параметров — входит в 8GB RAM. Есть версии 70B и 405B для тех, у кого серьёзное железо.

Qwen 2.5 / Qwen 3 (Alibaba) — лучший выбор для мультиязычных задач. Русский, китайский, код — на уровне. 7B версия конкурирует с Llama 3 8B, а местами обходит. Qwen 3 добавил thinking mode — цепочку рассуждений прямо в модели.

GGUF и квантизации

Оригинальные веса моделей весят десятки гигабайт и требуют GPU. Квантизация сжимает их до вменяемого размера с минимальной потерей качества.

Формат GGUF — единый контейнер: веса + токенайзер + метаданные в одном файле. Скачал — запустил.

Квантизация Размер (7B) RAM Качество
Q4_K_M ~4.1 GB ~6 GB Хорошее. Оптимальный баланс
Q5_K_M ~4.8 GB ~7 GB Очень хорошее. Чуть тяжелее
Q8_0 ~7.2 GB ~9 GB Почти без потерь. Если RAM позволяет

Рекомендация: Q4_K_M — золотая середина. Потери качества минимальны, а разница в скорости и размере — существенна. Q5_K_M — если есть запас по памяти и хочется чуть точнее.

Минимальное железо

Конфигурация Что потянет
8 GB RAM, любой x86_64 CPU 7B модели (Q4_K_M). Базовый вариант
16 GB RAM, 4+ ядер 13B модели. Комфортная работа с 7B
32 GB RAM или GPU 12GB+ 33B–70B модели. Серьёзный уровень

GPU кратно ускоряет генерацию, но не обязателен. На CPU тоже работает — просто медленнее. Apple Silicon (M1/M2/M3) — отличный вариант: unified memory позволяет грузить большие модели без дискретной видеокарты.

Быстрый старт

От нуля до работающей модели — две команды:

# Llama 3 8B
ollama run llama3

# Qwen 2.5 7B
ollama run qwen2.5

# Qwen 3 8B (с thinking mode)
ollama run qwen3

# Конкретная квантизация
ollama run llama3:8b-instruct-q5_K_M

Первый запуск скачает модель (~4-5 GB). Дальше всё локально.

Ollama поднимает API на localhost:11434. Можно дёргать из кода:

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5",
  "prompt": "Объясни квантизацию нейросетей в трёх предложениях",
  "stream": false
}'

Для хардкорщиков: llama.cpp напрямую

# Клонировать и собрать
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && make -j$(nproc)

# Запустить модель
./llama-cli -m /path/to/model.gguf \
  -p "Напиши функцию сортировки на Python" \
  -n 512 -t 4

# Или поднять сервер с API
./llama-server -m /path/to/model.gguf \
  --host 0.0.0.0 --port 8080

GGUF файлы берём с HuggingFace. Проверенные источники квантизаций: bartowski, TheBloke (легаси), Qwen official.

ИИ на флешке

Портативная установка — всё на одном USB-накопителе. Воткнул в любой компьютер — запустил.

Что нужно:

# Структура флешки
/LLM/
├── ollama              # бинарник
├── models/
│   ├── llama3-8b-q4_k_m.gguf
│   └── qwen2.5-7b-q4_k_m.gguf
└── run.sh              # скрипт запуска
#!/bin/bash
# run.sh — запуск с флешки
export OLLAMA_MODELS="$(dirname "$0")/models"
export OLLAMA_HOST="127.0.0.1:11434"
"$(dirname "$0")/ollama" serve &
sleep 2
"$(dirname "$0")/ollama" run llama3
Внешний SSD вместо флешки — в разы быстрее загрузка модели. Обычная USB-флешка потянет, но первый запуск будет долгим. После загрузки в RAM скорость накопителя уже не важна.

Производительность

Чего реально ждать. Модель 7B, квантизация Q4_K_M:

Железо Токенов/сек Ощущение
i5/Ryzen 5, 16GB, CPU only 8–15 Печатает медленно, но читабельно
Apple M1/M2, 16GB 25–40 Комфортно. Как быстрый набор текста
RTX 3060 12GB 40–60 Быстро. Ответ за секунды
RTX 4090 24GB 80–120 Мгновенно

Для 13B моделей — делим примерно на два. Для 70B — нужен GPU с 48GB VRAM или много RAM для CPU-инференса (медленно, но работает).

Ещё момент: первый токен всегда медленнее (prompt processing). Длинный промпт — ощутимая задержка перед первым словом ответа. Короткие промпты — почти мгновенно.

Что выбрать

· · ·

Локальные LLM — это не замена GPT-4 или Claude. Это другой инструмент для других задач. Приватный ассистент, офлайн-помощник, экспериментальная площадка. Модель на флешке — как швейцарский нож: не заменит мастерскую, но в поле незаменим.

Два гига на флешке. Ноль зависимостей от чужих серверов. Свой карманный ИИ.