2026-03-07

ИИ на флешке: запускаем Llama и Qwen локально

tech

2026-03-07

Облачные API — это удобно. Пока у тебя есть интернет, деньги на подписку, и тебя устраивает, что каждый промпт читает кто-то ещё. Если хотя бы один пункт не подходит — добро пожаловать в локальный инференс.

Зачем вообще

Четыре причины запускать LLM на своём железе:

Приватность. Данные не покидают машину. Никакой телеметрии, никаких логов на чужом сервере. Промпт живёт и умирает у тебя.
Офлайн. Самолёт, поезд, бункер без вайфая — модель работает. Интернет не нужен ни на одном этапе после скачивания.
Бесплатно. Ноль долларов за токен. Навсегда. Единственная инвестиция — железо, которое у тебя уже есть.
Без цензуры. Локальная модель отвечает на то, на что отвечает. Без корпоративных фильтров, без «I cannot help with that».

Инструменты

Два варианта. Оба рабочие, выбор зависит от того, насколько ты хочешь контролировать процесс.

llama.cpp — движок инференса на чистом C/C++. Работает на CPU, опционально GPU (CUDA, Metal, Vulkan). Никаких зависимостей, никакого Python. Скомпилировал — запустил. Поддерживает формат GGUF, который стал стандартом для квантизированных моделей.

Ollama — обёртка над llama.cpp с человеческим интерфейсом. Скачивает модели одной командой, управляет ими, выставляет API. Если не хочешь возиться с компиляцией и конфигами — это твой вариант.

# Установка ollama (Linux/macOS)
curl -fsSL https://ollama.com/install.sh | sh

# Или скачать бинарник с https://ollama.com/download

Модели

Две семейки, которые реально стоит запускать локально в 2026:

Llama 3.x (Meta) — рабочая лошадка. Хороша для английского, сносно справляется с русским. 8B параметров — входит в 8GB RAM. Есть версии 70B и 405B для тех, у кого серьёзное железо.

Qwen 2.5 / Qwen 3 (Alibaba) — лучший выбор для мультиязычных задач. Русский, китайский, код — на уровне. 7B версия конкурирует с Llama 3 8B, а местами обходит. Qwen 3 добавил thinking mode — цепочку рассуждений прямо в модели.

GGUF и квантизации

Оригинальные веса моделей весят десятки гигабайт и требуют GPU. Квантизация сжимает их до вменяемого размера с минимальной потерей качества.

Формат GGUF — единый контейнер: веса + токенайзер + метаданные в одном файле. Скачал — запустил.

Квантизация	Размер (7B)	RAM	Качество
`Q4_K_M`	~4.1 GB	~6 GB	Хорошее. Оптимальный баланс
`Q5_K_M`	~4.8 GB	~7 GB	Очень хорошее. Чуть тяжелее
`Q8_0`	~7.2 GB	~9 GB	Почти без потерь. Если RAM позволяет

Рекомендация: Q4_K_M — золотая середина. Потери качества минимальны, а разница в скорости и размере — существенна. Q5_K_M — если есть запас по памяти и хочется чуть точнее.

Минимальное железо

Конфигурация	Что потянет
8 GB RAM, любой x86_64 CPU	7B модели (Q4_K_M). Базовый вариант
16 GB RAM, 4+ ядер	13B модели. Комфортная работа с 7B
32 GB RAM или GPU 12GB+	33B–70B модели. Серьёзный уровень

GPU кратно ускоряет генерацию, но не обязателен. На CPU тоже работает — просто медленнее. Apple Silicon (M1/M2/M3) — отличный вариант: unified memory позволяет грузить большие модели без дискретной видеокарты.

Быстрый старт

От нуля до работающей модели — две команды:

# Llama 3 8B
ollama run llama3

# Qwen 2.5 7B
ollama run qwen2.5

# Qwen 3 8B (с thinking mode)
ollama run qwen3

# Конкретная квантизация
ollama run llama3:8b-instruct-q5_K_M

Первый запуск скачает модель (~4-5 GB). Дальше всё локально.

Ollama поднимает API на localhost:11434. Можно дёргать из кода:

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5",
  "prompt": "Объясни квантизацию нейросетей в трёх предложениях",
  "stream": false
}'

Для хардкорщиков: llama.cpp напрямую

# Клонировать и собрать
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && make -j$(nproc)

# Запустить модель
./llama-cli -m /path/to/model.gguf \
  -p "Напиши функцию сортировки на Python" \
  -n 512 -t 4

# Или поднять сервер с API
./llama-server -m /path/to/model.gguf \
  --host 0.0.0.0 --port 8080

GGUF файлы берём с HuggingFace. Проверенные источники квантизаций: bartowski, TheBloke (легаси), Qwen official.

ИИ на флешке

Портативная установка — всё на одном USB-накопителе. Воткнул в любой компьютер — запустил.

Что нужно:

USB 3.0+ флешка или внешний SSD (от 32 GB)
Бинарники ollama или llama.cpp (статическая сборка, ~50 MB)
Одна-две модели в GGUF (~4-5 GB каждая)

# Структура флешки
/LLM/
├── ollama              # бинарник
├── models/
│   ├── llama3-8b-q4_k_m.gguf
│   └── qwen2.5-7b-q4_k_m.gguf
└── run.sh              # скрипт запуска

#!/bin/bash
# run.sh — запуск с флешки
export OLLAMA_MODELS="$(dirname "$0")/models"
export OLLAMA_HOST="127.0.0.1:11434"
"$(dirname "$0")/ollama" serve &
sleep 2
"$(dirname "$0")/ollama" run llama3

Внешний SSD вместо флешки — в разы быстрее загрузка модели. Обычная USB-флешка потянет, но первый запуск будет долгим. После загрузки в RAM скорость накопителя уже не важна.

Производительность

Чего реально ждать. Модель 7B, квантизация Q4_K_M:

Железо	Токенов/сек	Ощущение
i5/Ryzen 5, 16GB, CPU only	8–15	Печатает медленно, но читабельно
Apple M1/M2, 16GB	25–40	Комфортно. Как быстрый набор текста
RTX 3060 12GB	40–60	Быстро. Ответ за секунды
RTX 4090 24GB	80–120	Мгновенно

Для 13B моделей — делим примерно на два. Для 70B — нужен GPU с 48GB VRAM или много RAM для CPU-инференса (медленно, но работает).

Ещё момент: первый токен всегда медленнее (prompt processing). Длинный промпт — ощутимая задержка перед первым словом ответа. Короткие промпты — почти мгновенно.

Что выбрать

Для текстов и чата на русском — Qwen 2.5 7B. Лучший русский среди моделей этого размера.
Для кода — Qwen 2.5 Coder 7B или Llama 3 8B. Оба хороши.
Для рассуждений — Qwen 3 8B с thinking mode. Медленнее, но умнее.
Для максимальной скорости — Llama 3 8B Q4_K_M. Лёгкая, быстрая.

· · ·

Локальные LLM — это не замена GPT-4 или Claude. Это другой инструмент для других задач. Приватный ассистент, офлайн-помощник, экспериментальная площадка. Модель на флешке — как швейцарский нож: не заменит мастерскую, но в поле незаменим.

Два гига на флешке. Ноль зависимостей от чужих серверов. Свой карманный ИИ.

← На базу