# ИИ на флешке: запускаем Llama и Qwen локально

_2026-03-07_

> Как запустить LLM локально на своём железе. Llama 3, Qwen 2.5/3, ollama, llama.cpp, GGUF квантизации. Портативная установка на флешке.

tech

2026-03-07

Облачные API — это удобно. Пока у тебя есть интернет, деньги на подписку, и тебя устраивает, что каждый промпт читает кто-то ещё. Если хотя бы один пункт не подходит — добро пожаловать в локальный инференс.

## Зачем вообще

Четыре причины запускать LLM на своём железе:

- **Приватность.** Данные не покидают машину. Никакой телеметрии, никаких логов на чужом сервере. Промпт живёт и умирает у тебя.
- **Офлайн.** Самолёт, поезд, бункер без вайфая — модель работает. Интернет не нужен ни на одном этапе после скачивания.
- **Бесплатно.** Ноль долларов за токен. Навсегда. Единственная инвестиция — железо, которое у тебя уже есть.
- **Без цензуры.** Локальная модель отвечает на то, на что отвечает. Без корпоративных фильтров, без «I cannot help with that».

## Инструменты

Два варианта. Оба рабочие, выбор зависит от того, насколько ты хочешь контролировать процесс.

**llama.cpp** — движок инференса на чистом C/C++. Работает на CPU, опционально GPU (CUDA, Metal, Vulkan). Никаких зависимостей, никакого Python. Скомпилировал — запустил. Поддерживает формат GGUF, который стал стандартом для квантизированных моделей.

**Ollama** — обёртка над llama.cpp с человеческим интерфейсом. Скачивает модели одной командой, управляет ими, выставляет API. Если не хочешь возиться с компиляцией и конфигами — это твой вариант.

```
# Установка ollama (Linux/macOS)
curl -fsSL https://ollama.com/install.sh | sh

# Или скачать бинарник с https://ollama.com/download
```

## Модели

Две семейки, которые реально стоит запускать локально в 2026:

**Llama 3.x** (Meta) — рабочая лошадка. Хороша для английского, сносно справляется с русским. 8B параметров — входит в 8GB RAM. Есть версии 70B и 405B для тех, у кого серьёзное железо.

**Qwen 2.5 / Qwen 3** (Alibaba) — лучший выбор для мультиязычных задач. Русский, китайский, код — на уровне. 7B версия конкурирует с Llama 3 8B, а местами обходит. Qwen 3 добавил thinking mode — цепочку рассуждений прямо в модели.

## GGUF и квантизации

Оригинальные веса моделей весят десятки гигабайт и требуют GPU. Квантизация сжимает их до вменяемого размера с минимальной потерей качества.

Формат GGUF — единый контейнер: веса + токенайзер + метаданные в одном файле. Скачал — запустил.

| Квантизация | Размер (7B) | RAM | Качество |
| --- | --- | --- | --- |
| `Q4_K_M` | ~4.1 GB | ~6 GB | Хорошее. Оптимальный баланс |
| `Q5_K_M` | ~4.8 GB | ~7 GB | Очень хорошее. Чуть тяжелее |
| `Q8_0` | ~7.2 GB | ~9 GB | Почти без потерь. Если RAM позволяет |

**Рекомендация:** `Q4_K_M` — золотая середина. Потери качества минимальны, а разница в скорости и размере — существенна. `Q5_K_M` — если есть запас по памяти и хочется чуть точнее.

## Минимальное железо

| Конфигурация | Что потянет |
| --- | --- |
| **8 GB RAM**, любой x86\_64 CPU | 7B модели (Q4\_K\_M). Базовый вариант |
| **16 GB RAM**, 4+ ядер | 13B модели. Комфортная работа с 7B |
| **32 GB RAM** или GPU 12GB+ | 33B–70B модели. Серьёзный уровень |

GPU кратно ускоряет генерацию, но не обязателен. На CPU тоже работает — просто медленнее. Apple Silicon (M1/M2/M3) — отличный вариант: unified memory позволяет грузить большие модели без дискретной видеокарты.

## Быстрый старт

От нуля до работающей модели — две команды:

```
# Llama 3 8B
ollama run llama3

# Qwen 2.5 7B
ollama run qwen2.5

# Qwen 3 8B (с thinking mode)
ollama run qwen3

# Конкретная квантизация
ollama run llama3:8b-instruct-q5_K_M
```

Первый запуск скачает модель (~4-5 GB). Дальше всё локально.

Ollama поднимает API на `localhost:11434`. Можно дёргать из кода:

```
curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5",
  "prompt": "Объясни квантизацию нейросетей в трёх предложениях",
  "stream": false
}'
```

## Для хардкорщиков: llama.cpp напрямую

```
# Клонировать и собрать
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && make -j$(nproc)

# Запустить модель
./llama-cli -m /path/to/model.gguf \
  -p "Напиши функцию сортировки на Python" \
  -n 512 -t 4

# Или поднять сервер с API
./llama-server -m /path/to/model.gguf \
  --host 0.0.0.0 --port 8080
```

GGUF файлы берём с HuggingFace. Проверенные источники квантизаций: *bartowski*, *TheBloke* (легаси), *Qwen official*.

## ИИ на флешке

Портативная установка — всё на одном USB-накопителе. Воткнул в любой компьютер — запустил.

Что нужно:

- USB 3.0+ флешка или внешний SSD (от 32 GB)
- Бинарники ollama или llama.cpp (статическая сборка, ~50 MB)
- Одна-две модели в GGUF (~4-5 GB каждая)

```
# Структура флешки
/LLM/
├── ollama              # бинарник
├── models/
│   ├── llama3-8b-q4_k_m.gguf
│   └── qwen2.5-7b-q4_k_m.gguf
└── run.sh              # скрипт запуска
```

```
#!/bin/bash
# run.sh — запуск с флешки
export OLLAMA_MODELS="$(dirname "$0")/models"
export OLLAMA_HOST="127.0.0.1:11434"
"$(dirname "$0")/ollama" serve &
sleep 2
"$(dirname "$0")/ollama" run llama3
```

> Внешний SSD вместо флешки — в разы быстрее загрузка модели. Обычная USB-флешка потянет, но первый запуск будет долгим. После загрузки в RAM скорость накопителя уже не важна.

## Производительность

Чего реально ждать. Модель 7B, квантизация Q4\_K\_M:

| Железо | Токенов/сек | Ощущение |
| --- | --- | --- |
| i5/Ryzen 5, 16GB, CPU only | 8–15 | Печатает медленно, но читабельно |
| Apple M1/M2, 16GB | 25–40 | Комфортно. Как быстрый набор текста |
| RTX 3060 12GB | 40–60 | Быстро. Ответ за секунды |
| RTX 4090 24GB | 80–120 | Мгновенно |

Для 13B моделей — делим примерно на два. Для 70B — нужен GPU с 48GB VRAM или много RAM для CPU-инференса (медленно, но работает).

Ещё момент: первый токен всегда медленнее (prompt processing). Длинный промпт — ощутимая задержка перед первым словом ответа. Короткие промпты — почти мгновенно.

## Что выбрать

- **Для текстов и чата на русском** — Qwen 2.5 7B. Лучший русский среди моделей этого размера.
- **Для кода** — Qwen 2.5 Coder 7B или Llama 3 8B. Оба хороши.
- **Для рассуждений** — Qwen 3 8B с thinking mode. Медленнее, но умнее.
- **Для максимальной скорости** — Llama 3 8B Q4\_K\_M. Лёгкая, быстрая.

· · ·

Локальные LLM — это не замена GPT-4 или Claude. Это другой инструмент для других задач. Приватный ассистент, офлайн-помощник, экспериментальная площадка. Модель на флешке — как швейцарский нож: не заменит мастерскую, но в поле незаменим.

Два гига на флешке. Ноль зависимостей от чужих серверов. Свой карманный ИИ.

[← На базу](../index.html)