Ollama: Как установить и запустить локальную LLM за 5 минут

Запуск языковых моделей на собственном оборудовании — это не просто эксперимент для энтузиастов. Для бизнеса локальные LLM решают две критически важные проблемы: конфиденциальность данных и контроль расходов. Ollama делает этот процесс максимально простым — от установки до первого запроса к модели проходит буквально пять минут.

В этом руководстве мы пройдём весь путь: от установки Ollama на вашу систему до развёртывания полноценного чат-интерфейса с Open WebUI.

Что такое Ollama и зачем он нужен

Ollama — это инструмент с открытым исходным кодом, который позволяет запускать большие языковые модели (LLM) локально на вашем компьютере или сервере. По сути, Ollama работает как Docker для AI-моделей: вы просто указываете имя модели, и она скачивается и запускается автоматически.

Ключевые преимущества Ollama:

Конфиденциальность — данные никогда не покидают вашу машину
Нет абонентской платы — только стоимость оборудования
Офлайн-работа — после скачивания модели интернет не нужен
OpenAI-совместимый API — легко интегрируется с существующими приложениями
Простота — минимум настройки, максимум результата

Системные требования

Прежде чем начать, убедитесь, что ваша система соответствует минимальным требованиям:

Параметр	Модели 7B	Модели 13B	Модели 70B
RAM	8 ГБ	16 ГБ	64 ГБ
VRAM (GPU)	6 ГБ	10 ГБ	48 ГБ
Место на диске	4-5 ГБ	7-8 ГБ	40+ ГБ
CPU (без GPU)	Работает медленно	Работает медленно	Не рекомендуется

Важно: Ollama автоматически использует GPU (NVIDIA, AMD или Apple Silicon), если он доступен. На Mac с M1/M2/M3/M4 производительность отличная благодаря общей памяти CPU и GPU.

Установка Ollama

macOS

Самый простой способ — через Homebrew:

brew install ollama

Или скачайте установщик с официального сайта ollama.com и перетащите приложение в папку Applications.

После установки запустите Ollama:

ollama serve

На macOS Ollama также устанавливается как приложение в меню-баре и запускается автоматически.

Linux

Установка одной командой:

curl -fsSL https://ollama.com/install.sh | sh

Этот скрипт автоматически определит вашу систему, установит Ollama и настроит его как systemd-сервис. После установки сервис запустится автоматически.

Проверьте, что всё работает:

systemctl status ollama

Для ручного управления:

# Запустить
sudo systemctl start ollama

# Остановить
sudo systemctl stop ollama

# Перезапустить
sudo systemctl restart ollama

Windows

Скачайте установщик с ollama.com и запустите его. Ollama установится как фоновый сервис и будет доступен через командную строку.

# Проверить установку
ollama --version

Совет для Windows: Убедитесь, что у вас установлены последние драйверы NVIDIA. Для AMD GPU на Windows поддержка пока экспериментальная.

Скачивание и запуск моделей

После установки скачать и запустить модель можно одной командой:

# Скачать и запустить Llama 3.1 8B
ollama run llama3.1

# Скачать и запустить Mistral 7B
ollama run mistral

# Скачать и запустить DeepSeek Coder v2
ollama run deepseek-coder-v2

# Скачать и запустить Qwen 2.5 7B
ollama run qwen2.5

При первом запуске модель автоматически скачается. Последующие запуски будут мгновенными.

Управление моделями

# Список установленных моделей
ollama list

# Скачать модель без запуска
ollama pull llama3.1

# Удалить модель
ollama rm llama3.1

# Информация о модели
ollama show llama3.1

Выбор размера модели

Многие модели доступны в нескольких размерах. Указывайте тег после имени:

# Маленькая модель (быстрая, менее точная)
ollama run llama3.1:8b

# Средняя модель (баланс скорости и качества)
ollama run llama3.1:70b

# Большая модель (лучшее качество, требует мощного железа)
ollama run llama3.1:405b

Сравнение популярных моделей

Выбор модели зависит от вашей задачи и доступных ресурсов. Вот сравнение наиболее популярных моделей:

Модель	Размер	RAM	Сильные стороны	Скорость*
Llama 3.1 8B	4.7 ГБ	8 ГБ	Универсальная, хороший баланс	~40 т/с
Llama 3.1 70B	40 ГБ	64 ГБ	Сложные задачи, анализ	~8 т/с
Mistral 7B	4.1 ГБ	8 ГБ	Быстрая, хороший русский	~45 т/с
Qwen 2.5 7B	4.4 ГБ	8 ГБ	Мультиязычная, кодинг	~42 т/с
Qwen 2.5 32B	18 ГБ	32 ГБ	Отличное качество, кодинг	~15 т/с
DeepSeek Coder V2	8.9 ГБ	16 ГБ	Программирование	~30 т/с
Phi-3 Mini	2.2 ГБ	4 ГБ	Компактная, логика	~55 т/с
Phi-3 Medium	7.9 ГБ	16 ГБ	Качество на уровне 13B	~35 т/с

*Скорость измерена на Apple M3 Pro 18 ГБ, токены/секунда — генерация.

Наши рекомендации по выбору

Для общих задач на слабом железе: Phi-3 Mini или Llama 3.1 8B
Для программирования: DeepSeek Coder V2 или Qwen 2.5 32B
Для работы с русским языком: Qwen 2.5 или Mistral
Для максимального качества: Llama 3.1 70B или Qwen 2.5 72B

Использование API

Ollama предоставляет REST API, совместимый с форматом OpenAI. Это означает, что любое приложение, работающее с OpenAI API, может работать с Ollama без изменений.

Базовый запрос через curl

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1",
  "prompt": "Объясни, что такое машинное обучение в трёх предложениях",
  "stream": false
}'

OpenAI-совместимый API

curl http://localhost:11434/v1/chat/completions -d '{
  "model": "llama3.1",
  "messages": [
    {
      "role": "system",
      "content": "Ты полезный AI-ассистент. Отвечай на русском языке."
    },
    {
      "role": "user",
      "content": "Напиши план маркетинговой кампании для стартапа"
    }
  ]
}'

Использование с Python

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # Ollama не требует ключ, но библиотека требует параметр
)

response = client.chat.completions.create(
    model="llama3.1",
    messages=[
        {"role": "system", "content": "Ты полезный AI-ассистент."},
        {"role": "user", "content": "Что такое нейронная сеть?"}
    ]
)

print(response.choices[0].message.content)

Использование с JavaScript/TypeScript

const response = await fetch("http://localhost:11434/v1/chat/completions", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "llama3.1",
    messages: [
      { role: "user", content: "Привет! Расскажи о себе." }
    ]
  })
});

const data = await response.json();
console.log(data.choices[0].message.content);

Интеграция с Open WebUI

Командная строка удобна для разработчиков, но для повседневного использования в команде нужен графический интерфейс. Open WebUI — лучший выбор: это бесплатный веб-интерфейс, который выглядит и работает как ChatGPT, но использует ваши локальные модели.

Установка через Docker

docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

После запуска откройте http://localhost:3000 в браузере. При первом входе создайте учётную запись администратора.

Что даёт Open WebUI

Чат-интерфейс — удобный веб-интерфейс в стиле ChatGPT
Управление пользователями — создание учётных записей для команды
История чатов — сохранение и поиск по переписке
Загрузка документов — RAG (Retrieval-Augmented Generation) из коробки
Переключение моделей — выбор модели прямо в интерфейсе
Промпт-шаблоны — создание и шаринг промптов в команде

Совет от QZX Studio: Open WebUI + Ollama — это идеальное решение для компаний, которым нужен «корпоративный ChatGPT» без отправки данных в облако. Мы развернули такие решения для нескольких клиентов за один рабочий день.

Создание кастомных моделей

Ollama позволяет создавать собственные модели с настроенным системным промптом и параметрами. Для этого используются Modelfile:

# Modelfile для кастомного ассистента
FROM llama3.1

# Системный промпт
SYSTEM """
Ты — AI-ассистент компании QZX Studio. Ты помогаешь клиентам с вопросами
о разработке, AI-интеграции и автоматизации бизнес-процессов.
Отвечай на русском языке, профессионально и по существу.
"""

# Параметры генерации
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

Создайте модель:

ollama create qzx-assistant -f Modelfile

Запустите:

ollama run qzx-assistant

Такие кастомные модели можно использовать для создания специализированных ассистентов для разных отделов компании: продаж, поддержки, разработки.

Советы по оптимизации производительности

1. Выбирайте правильный размер модели

Не всегда нужна самая большая модель. Для простых задач (суммаризация, ответы на вопросы) модели 7-8B достаточно. Используйте 70B+ только для сложных аналитических задач.

2. Настройте контекстное окно

По умолчанию Ollama использует контекст 2048 токенов. Увеличьте его при необходимости:

# В Modelfile
PARAMETER num_ctx 8192

# Или через API
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1",
  "prompt": "...",
  "options": {
    "num_ctx": 8192
  }
}'

Внимание: увеличение контекста значительно увеличивает потребление памяти.

3. Используйте квантизованные модели

Ollama по умолчанию скачивает квантизованные версии (Q4_0), которые занимают в 4 раза меньше памяти при минимальной потере качества. Для большинства задач это оптимальный выбор.

4. Настройте переменные окружения

# Адрес, на котором слушает Ollama (по умолчанию localhost)
export OLLAMA_HOST=0.0.0.0:11434

# Директория для хранения моделей
export OLLAMA_MODELS=/path/to/models

# Количество параллельных запросов
export OLLAMA_NUM_PARALLEL=2

# Время хранения модели в памяти после запроса
export OLLAMA_KEEP_ALIVE=5m

5. Мониторинг ресурсов

Следите за использованием ресурсов во время работы:

# Посмотреть загруженные модели и их потребление памяти
ollama ps

# На macOS — мониторинг GPU
sudo powermetrics --samplers gpu_power

Типичные проблемы и решения

Модель работает слишком медленно:

Проверьте, используется ли GPU: ollama ps покажет информацию о GPU
Попробуйте модель меньшего размера
Закройте другие приложения, потребляющие GPU (браузер с аппаратным ускорением)

Ошибка "out of memory":

Используйте модель меньшего размера
Уменьшите num_ctx
На системах с GPU попробуйте: OLLAMA_GPU_LAYERS=20 ollama serve

Ollama не видит GPU на Linux:

Убедитесь, что установлены драйверы NVIDIA: nvidia-smi
Установите NVIDIA Container Toolkit для Docker-развёртываний

Плохое качество на русском языке:

Используйте Qwen 2.5 или Mistral — они лучше других поддерживают русский
Добавьте системный промпт с указанием отвечать на русском

Заключение

Ollama — это самый простой способ запустить AI-модель на собственном оборудовании. За пять минут вы получаете полноценный AI-ассистент, который работает офлайн, не отправляет данные в облако и не требует ежемесячных платежей.

Для бизнеса связка Ollama + Open WebUI представляет реальную альтернативу облачным AI-сервисам, особенно если вы работаете с конфиденциальными данными или хотите контролировать расходы.

Если вам нужна помощь с развёртыванием Ollama в продакшен-среде, настройкой кластера для обслуживания нескольких команд или интеграцией с вашими бизнес-системами — обращайтесь к нам в QZX Studio. Мы специализируемся на внедрении AI-решений и поможем выбрать оптимальную конфигурацию для ваших задач.

Содержание (28)

Содержание