ИИ на флешке: запускаем Llama и Qwen локально
tech
2026-03-07
Облачные API — это удобно. Пока у тебя есть интернет, деньги на подписку, и тебя устраивает, что каждый промпт читает кто-то ещё. Если хотя бы один пункт не подходит — добро пожаловать в локальный инференс.
Зачем вообще
Четыре причины запускать LLM на своём железе:
- Приватность. Данные не покидают машину. Никакой телеметрии, никаких логов на чужом сервере. Промпт живёт и умирает у тебя.
- Офлайн. Самолёт, поезд, бункер без вайфая — модель работает. Интернет не нужен ни на одном этапе после скачивания.
- Бесплатно. Ноль долларов за токен. Навсегда. Единственная инвестиция — железо, которое у тебя уже есть.
- Без цензуры. Локальная модель отвечает на то, на что отвечает. Без корпоративных фильтров, без «I cannot help with that».
Инструменты
Два варианта. Оба рабочие, выбор зависит от того, насколько ты хочешь контролировать процесс.
llama.cpp — движок инференса на чистом C/C++. Работает на CPU, опционально GPU (CUDA, Metal, Vulkan). Никаких зависимостей, никакого Python. Скомпилировал — запустил. Поддерживает формат GGUF, который стал стандартом для квантизированных моделей.
Ollama — обёртка над llama.cpp с человеческим интерфейсом. Скачивает модели одной командой, управляет ими, выставляет API. Если не хочешь возиться с компиляцией и конфигами — это твой вариант.
# Установка ollama (Linux/macOS)
curl -fsSL https://ollama.com/install.sh | sh
# Или скачать бинарник с https://ollama.com/download
Модели
Две семейки, которые реально стоит запускать локально в 2026:
Llama 3.x (Meta) — рабочая лошадка. Хороша для английского, сносно справляется с русским. 8B параметров — входит в 8GB RAM. Есть версии 70B и 405B для тех, у кого серьёзное железо.
Qwen 2.5 / Qwen 3 (Alibaba) — лучший выбор для мультиязычных задач. Русский, китайский, код — на уровне. 7B версия конкурирует с Llama 3 8B, а местами обходит. Qwen 3 добавил thinking mode — цепочку рассуждений прямо в модели.
GGUF и квантизации
Оригинальные веса моделей весят десятки гигабайт и требуют GPU. Квантизация сжимает их до вменяемого размера с минимальной потерей качества.
Формат GGUF — единый контейнер: веса + токенайзер + метаданные в одном файле. Скачал — запустил.
| Квантизация | Размер (7B) | RAM | Качество |
|---|---|---|---|
Q4_K_M |
~4.1 GB | ~6 GB | Хорошее. Оптимальный баланс |
Q5_K_M |
~4.8 GB | ~7 GB | Очень хорошее. Чуть тяжелее |
Q8_0 |
~7.2 GB | ~9 GB | Почти без потерь. Если RAM позволяет |
Рекомендация: Q4_K_M — золотая середина. Потери качества минимальны, а разница в скорости и размере — существенна. Q5_K_M — если есть запас по памяти и хочется чуть точнее.
Минимальное железо
| Конфигурация | Что потянет |
|---|---|
| 8 GB RAM, любой x86_64 CPU | 7B модели (Q4_K_M). Базовый вариант |
| 16 GB RAM, 4+ ядер | 13B модели. Комфортная работа с 7B |
| 32 GB RAM или GPU 12GB+ | 33B–70B модели. Серьёзный уровень |
GPU кратно ускоряет генерацию, но не обязателен. На CPU тоже работает — просто медленнее. Apple Silicon (M1/M2/M3) — отличный вариант: unified memory позволяет грузить большие модели без дискретной видеокарты.
Быстрый старт
От нуля до работающей модели — две команды:
# Llama 3 8B
ollama run llama3
# Qwen 2.5 7B
ollama run qwen2.5
# Qwen 3 8B (с thinking mode)
ollama run qwen3
# Конкретная квантизация
ollama run llama3:8b-instruct-q5_K_M
Первый запуск скачает модель (~4-5 GB). Дальше всё локально.
Ollama поднимает API на localhost:11434. Можно дёргать из кода:
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5",
"prompt": "Объясни квантизацию нейросетей в трёх предложениях",
"stream": false
}'
Для хардкорщиков: llama.cpp напрямую
# Клонировать и собрать
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && make -j$(nproc)
# Запустить модель
./llama-cli -m /path/to/model.gguf \
-p "Напиши функцию сортировки на Python" \
-n 512 -t 4
# Или поднять сервер с API
./llama-server -m /path/to/model.gguf \
--host 0.0.0.0 --port 8080
GGUF файлы берём с HuggingFace. Проверенные источники квантизаций: bartowski, TheBloke (легаси), Qwen official.
ИИ на флешке
Портативная установка — всё на одном USB-накопителе. Воткнул в любой компьютер — запустил.
Что нужно:
- USB 3.0+ флешка или внешний SSD (от 32 GB)
- Бинарники ollama или llama.cpp (статическая сборка, ~50 MB)
- Одна-две модели в GGUF (~4-5 GB каждая)
# Структура флешки
/LLM/
├── ollama # бинарник
├── models/
│ ├── llama3-8b-q4_k_m.gguf
│ └── qwen2.5-7b-q4_k_m.gguf
└── run.sh # скрипт запуска
#!/bin/bash
# run.sh — запуск с флешки
export OLLAMA_MODELS="$(dirname "$0")/models"
export OLLAMA_HOST="127.0.0.1:11434"
"$(dirname "$0")/ollama" serve &
sleep 2
"$(dirname "$0")/ollama" run llama3
Внешний SSD вместо флешки — в разы быстрее загрузка модели. Обычная USB-флешка потянет, но первый запуск будет долгим. После загрузки в RAM скорость накопителя уже не важна.
Производительность
Чего реально ждать. Модель 7B, квантизация Q4_K_M:
| Железо | Токенов/сек | Ощущение |
|---|---|---|
| i5/Ryzen 5, 16GB, CPU only | 8–15 | Печатает медленно, но читабельно |
| Apple M1/M2, 16GB | 25–40 | Комфортно. Как быстрый набор текста |
| RTX 3060 12GB | 40–60 | Быстро. Ответ за секунды |
| RTX 4090 24GB | 80–120 | Мгновенно |
Для 13B моделей — делим примерно на два. Для 70B — нужен GPU с 48GB VRAM или много RAM для CPU-инференса (медленно, но работает).
Ещё момент: первый токен всегда медленнее (prompt processing). Длинный промпт — ощутимая задержка перед первым словом ответа. Короткие промпты — почти мгновенно.
Что выбрать
- Для текстов и чата на русском — Qwen 2.5 7B. Лучший русский среди моделей этого размера.
- Для кода — Qwen 2.5 Coder 7B или Llama 3 8B. Оба хороши.
- Для рассуждений — Qwen 3 8B с thinking mode. Медленнее, но умнее.
- Для максимальной скорости — Llama 3 8B Q4_K_M. Лёгкая, быстрая.
· · ·
Локальные LLM — это не замена GPT-4 или Claude. Это другой инструмент для других задач. Приватный ассистент, офлайн-помощник, экспериментальная площадка. Модель на флешке — как швейцарский нож: не заменит мастерскую, но в поле незаменим.
Два гига на флешке. Ноль зависимостей от чужих серверов. Свой карманный ИИ.