Своя LLM (Ollama)

Ollama запускает открытые языковые модели прямо на твоём сервере: данные не уходят в облако, не нужны API-ключи и подписки. Ты ставишь движок, скачиваешь модель и общаешься с ней через консоль или по локальному API из своих приложений.

Команды актуальны на момент написания. Перед установкой сверься с официальным сайтом ollama.com и репозиторием github.com/ollama/ollama — синтаксис и список моделей меняются.

Реальность про железо

LLM любит память и считает на процессоре медленно. Без видеокарты выбирай скромные модели:

Размер модели	Где работает	Чего ждать
1B–3B (напр. `llama3.2`, `gemma3:1b`)	CPU + несколько ГБ RAM	отвечает, но не мгновенно
7B–8B	CPU + много RAM, заметно медленнее	терпимо для экспериментов
13B и больше	реально нужен GPU	на обычном VPS не вариант

Главный ограничитель — оперативная память. Модель целиком грузится в RAM; если её не хватит, процесс убьёт OOM-killer. Бери модель по размеру сервера и держи запас памяти. На маленьком тарифе поможет своп-файл — но своп медленный, это страховка, а не замена RAM.

Установка

Поставь Ollama

Официальный скрипт ставит Ollama и поднимает фоновый сервис:

curl -fsSL https://ollama.com/install.sh | sh

Запусти модель

Скачать и сразу начать диалог одной командой:

ollama run llama3.2

Без тега команда загружает вариант 3B (~2 ГБ). На маленьких серверах (2–4 ГБ RAM) бери облегчённый вариант явно:

ollama run llama3.2:1b

Теги :1b и :3b задают размер модели. Первый запуск качает модель (от сотен МБ до нескольких ГБ), дальше она берётся с диска. Выйти из диалога — /bye.

Управление моделями

Скачать модель заранее

ollama pull gemma3

Список доступных моделей и их размеры — на ollama.com/library.

Посмотреть скачанные модели

ollama list

Удалить модель и освободить диск

ollama rm gemma3

API для своих приложений

После установки Ollama слушает локальный API на http://localhost:11434. Так к нему обращается твой код:

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [{ "role": "user", "content": "Привет" }],
  "stream": false
}'

Хочешь общаться через браузер, а не консоль — поставь веб-интерфейс Open WebUI в контейнере. Это удобный чат поверх Ollama. Как поднять Docker — в гайде Docker на сервере.

Не выставляй порт 11434 в интернет «как есть» — открытый API любой сможет нагрузить твоими ресурсами. Держи его доступным только локально (по умолчанию так и есть) либо закрой файрволом и пускай к нему только через защищённый прокси с авторизацией.

Lumi отвечает за сервер и сеть; настройку софта делаешь ты. Сеть или порт не работают — пиши в @lumisup_robot.

Куда дальше

Своп

Как добавить своп, если RAM не хватает для модели.

Docker

Запустить Open WebUI для Ollama через Docker.

​Реальность про железо

​Установка

​Управление моделями

​API для своих приложений

​Куда дальше

Своп

Docker

Реальность про железо

Установка

Управление моделями

API для своих приложений

Куда дальше