Перейти к основному содержанию
Ollama запускает открытые языковые модели прямо на твоём сервере: данные не уходят в облако, не нужны API-ключи и подписки. Ты ставишь движок, скачиваешь модель и общаешься с ней через консоль или по локальному API из своих приложений.
Команды актуальны на момент написания. Перед установкой сверься с официальным сайтом ollama.com и репозиторием github.com/ollama/ollama — синтаксис и список моделей меняются.

Реальность про железо

LLM любит память и считает на процессоре медленно. Без видеокарты выбирай скромные модели:
Размер моделиГде работаетЧего ждать
1B–3B (напр. llama3.2, gemma3:1b)CPU + несколько ГБ RAMотвечает, но не мгновенно
7B–8BCPU + много RAM, заметно медленнеетерпимо для экспериментов
13B и большереально нужен GPUна обычном VPS не вариант
Главный ограничитель — оперативная память. Модель целиком грузится в RAM; если её не хватит, процесс убьёт OOM-killer. Бери модель по размеру сервера и держи запас памяти. На маленьком тарифе поможет своп-файл — но своп медленный, это страховка, а не замена RAM.

Установка

1

Поставь Ollama

Официальный скрипт ставит Ollama и поднимает фоновый сервис:
curl -fsSL https://ollama.com/install.sh | sh
2

Запусти модель

Скачать и сразу начать диалог одной командой:
ollama run llama3.2
Без тега команда загружает вариант 3B (~2 ГБ). На маленьких серверах (2–4 ГБ RAM) бери облегчённый вариант явно:
ollama run llama3.2:1b
Теги :1b и :3b задают размер модели. Первый запуск качает модель (от сотен МБ до нескольких ГБ), дальше она берётся с диска. Выйти из диалога — /bye.

Управление моделями

ollama pull gemma3
Список доступных моделей и их размеры — на ollama.com/library.
ollama list
ollama rm gemma3

API для своих приложений

После установки Ollama слушает локальный API на http://localhost:11434. Так к нему обращается твой код:
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [{ "role": "user", "content": "Привет" }],
  "stream": false
}'
Хочешь общаться через браузер, а не консоль — поставь веб-интерфейс Open WebUI в контейнере. Это удобный чат поверх Ollama. Как поднять Docker — в гайде Docker на сервере.
Не выставляй порт 11434 в интернет «как есть» — открытый API любой сможет нагрузить твоими ресурсами. Держи его доступным только локально (по умолчанию так и есть) либо закрой файрволом и пускай к нему только через защищённый прокси с авторизацией.
Lumi отвечает за сервер и сеть; настройку софта делаешь ты. Сеть или порт не работают — пиши в @lumisup_robot.

Куда дальше

Своп

Как добавить своп, если RAM не хватает для модели.

Docker

Запустить Open WebUI для Ollama через Docker.