> ## Documentation Index > Fetch the complete documentation index at: https://wiki.lumiweb.cc/llms.txt > Use this file to discover all available pages before exploring further. # Своя LLM (Ollama) > Запуск нейросети на сервере без GPU Ollama запускает открытые языковые модели прямо на твоём сервере: данные не уходят в облако, не нужны API-ключи и подписки. Ты ставишь движок, скачиваешь модель и общаешься с ней через консоль или по локальному API из своих приложений. Команды актуальны на момент написания. Перед установкой сверься с официальным сайтом [ollama.com](https://ollama.com) и репозиторием [github.com/ollama/ollama](https://github.com/ollama/ollama) — синтаксис и список моделей меняются. ## Реальность про железо LLM любит память и считает на процессоре медленно. Без видеокарты выбирай скромные модели: | Размер модели | Где работает | Чего ждать | | ------------------------------------- | ---------------------------------- | ------------------------- | | 1B–3B (напр. `llama3.2`, `gemma3:1b`) | CPU + несколько ГБ RAM | отвечает, но не мгновенно | | 7B–8B | CPU + много RAM, заметно медленнее | терпимо для экспериментов | | 13B и больше | реально нужен GPU | на обычном VPS не вариант | Главный ограничитель — оперативная память. Модель целиком грузится в RAM; если её не хватит, процесс убьёт OOM-killer. Бери модель по размеру сервера и держи запас памяти. На маленьком тарифе поможет [своп-файл](/vps/swap) — но своп медленный, это страховка, а не замена RAM. ## Установка Официальный скрипт ставит Ollama и поднимает фоновый сервис: ```bash theme={"system"} curl -fsSL https://ollama.com/install.sh | sh ``` Скачать и сразу начать диалог одной командой: ```bash theme={"system"} ollama run llama3.2 ``` Без тега команда загружает вариант 3B (\~2 ГБ). На маленьких серверах (2–4 ГБ RAM) бери облегчённый вариант явно: ```bash theme={"system"} ollama run llama3.2:1b ``` Теги `:1b` и `:3b` задают размер модели. Первый запуск качает модель (от сотен МБ до нескольких ГБ), дальше она берётся с диска. Выйти из диалога — `/bye`. ## Управление моделями ```bash theme={"system"} ollama pull gemma3 ``` Список доступных моделей и их размеры — на [ollama.com/library](https://ollama.com/library). ```bash theme={"system"} ollama list ``` ```bash theme={"system"} ollama rm gemma3 ``` ## API для своих приложений После установки Ollama слушает локальный API на `http://localhost:11434`. Так к нему обращается твой код: ```bash theme={"system"} curl http://localhost:11434/api/chat -d '{ "model": "llama3.2", "messages": [{ "role": "user", "content": "Привет" }], "stream": false }' ``` Хочешь общаться через браузер, а не консоль — поставь веб-интерфейс [Open WebUI](https://github.com/open-webui/open-webui) в контейнере. Это удобный чат поверх Ollama. Как поднять Docker — в гайде [Docker на сервере](/vps/docker). Не выставляй порт `11434` в интернет «как есть» — открытый API любой сможет нагрузить твоими ресурсами. Держи его доступным только локально (по умолчанию так и есть) либо закрой [файрволом](/vps/firewall) и пускай к нему только через защищённый прокси с авторизацией. Lumi отвечает за сервер и сеть; настройку софта делаешь ты. Сеть или порт не работают — пиши в [@lumisup\_robot](https://t.me/lumisup_robot). ## Куда дальше Как добавить своп, если RAM не хватает для модели. Запустить Open WebUI для Ollama через Docker.