Команды актуальны на момент написания. Перед установкой сверься с официальным сайтом ollama.com и репозиторием github.com/ollama/ollama — синтаксис и список моделей меняются.
Реальность про железо
LLM любит память и считает на процессоре медленно. Без видеокарты выбирай скромные модели:| Размер модели | Где работает | Чего ждать |
|---|---|---|
1B–3B (напр. llama3.2, gemma3:1b) | CPU + несколько ГБ RAM | отвечает, но не мгновенно |
| 7B–8B | CPU + много RAM, заметно медленнее | терпимо для экспериментов |
| 13B и больше | реально нужен GPU | на обычном VPS не вариант |
Установка
Запусти модель
Скачать и сразу начать диалог одной командой:Без тега команда загружает вариант 3B (~2 ГБ). На маленьких серверах (2–4 ГБ RAM) бери облегчённый вариант явно:Теги
:1b и :3b задают размер модели. Первый запуск качает модель (от сотен МБ до нескольких ГБ), дальше она берётся с диска. Выйти из диалога — /bye.Управление моделями
Скачать модель заранее
Скачать модель заранее
Посмотреть скачанные модели
Посмотреть скачанные модели
Удалить модель и освободить диск
Удалить модель и освободить диск
API для своих приложений
После установки Ollama слушает локальный API наhttp://localhost:11434. Так к нему обращается твой код:
Куда дальше
Своп
Как добавить своп, если RAM не хватает для модели.
Docker
Запустить Open WebUI для Ollama через Docker.