Ollama — это инструмент для запуска больших языковых моделей (LLM) локально на вашем компьютере. Без облака, без подписок, без отправки данных на внешние серверы. Llama 3, Mistral, Gemma, DeepSeek и десятки других моделей можно установить одной командой. В этом руководстве разберём всё: от установки до использования API.
Зачем запускать LLM локально
- Приватность: данные не покидают ваш компьютер — критично для конфиденциальных документов
- Бесплатно: нет абонентской платы и лимитов на количество запросов
- Офлайн: работает без интернета после загрузки модели
- Кастомизация: можно дообучить модель на своих данных
- Интеграция: REST API для встраивания в свои приложения
Системные требования
| Размер модели | RAM | GPU VRAM | Примеры моделей |
|---|---|---|---|
| 3B параметров | 8 GB | 4 GB | Llama 3.2 3B, Phi-3 Mini |
| 7–8B параметров | 16 GB | 8 GB | Llama 3.1 8B, Mistral 7B, Gemma 2 9B |
| 13–14B параметров | 32 GB | 12 GB | Llama 3.1 13B, DeepSeek Coder 14B |
| 30–34B параметров | 64 GB | 24 GB | DeepSeek 33B, CodeLlama 34B |
| 70B параметров | 128 GB | 48 GB+ | Llama 3.1 70B |
Если GPU нет или VRAM не хватает, Ollama автоматически использует CPU. Будет медленнее, но работать будет.
Установка Ollama
Windows
- Скачайте установщик с ollama.com/download
- Запустите
OllamaSetup.exeи следуйте инструкциям - Ollama запустится как фоновый сервис (иконка в трее)
- Откройте терминал (PowerShell или CMD) и проверьте:
ollama --version
macOS
brew install ollama
Или скачайте .dmg с официального сайта.
Linux
curl -fsSL https://ollama.com/install.sh | sh
Скачивание и запуск моделей
Основные команды
# Скачать и запустить модель
ollama run llama3.1
# Список скачанных моделей
ollama list
# Удалить модель
ollama rm llama3.1
# Скачать без запуска
ollama pull mistral
# Информация о модели
ollama show llama3.1
Рекомендуемые модели
| Модель | Размер | Лучше всего для | Команда |
|---|---|---|---|
| Llama 3.1 8B | 4.7 GB | Универсальная, русский язык | ollama run llama3.1 |
| Mistral 7B | 4.1 GB | Быстрые ответы, рассуждения | ollama run mistral |
| Gemma 2 9B | 5.4 GB | Качественные тексты | ollama run gemma2 |
| DeepSeek Coder V2 | 8.9 GB | Программирование | ollama run deepseek-coder-v2 |
| Phi-3 Mini | 2.3 GB | Слабые ПК, быстрые ответы | ollama run phi3 |
| Qwen 2.5 7B | 4.4 GB | Мультиязычность | ollama run qwen2.5 |
Использование в терминале
После команды ollama run llama3.1 откроется интерактивный чат. Просто пишите сообщения и получайте ответы:
>>> Объясни рекурсию простыми словами
Представь, что ты стоишь перед двумя зеркалами...
>>> /bye # выход из чата
Полезные команды в чате
/bye— выход/show info— информация о модели/set system "Ты — помощник..."— системный промпт/save mymodel— сохранить настройки как кастомную модель
REST API
Ollama предоставляет REST API на http://localhost:11434, совместимый с форматом OpenAI. Это значит, что большинство приложений, работающих с OpenAI API, могут работать с Ollama без изменений.
Примеры запросов
# Генерация ответа
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1",
"prompt": "Что такое Docker?",
"stream": false
}'
# Чат (формат OpenAI)
curl http://localhost:11434/v1/chat/completions -d '{
"model": "llama3.1",
"messages": [
{"role": "user", "content": "Привет!"}
]
}'
Использование с Python
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # любое значение
)
response = client.chat.completions.create(
model="llama3.1",
messages=[{"role": "user", "content": "Привет!"}]
)
print(response.choices[0].message.content)
Веб-интерфейсы для Ollama
Терминал не всем удобен. Вот популярные веб-интерфейсы:
- Open WebUI: полнофункциональный интерфейс а-ля ChatGPT. Установка:
docker run -p 3000:8080 ghcr.io/open-webui/open-webui - Chatbox: десктоп-приложение для Windows/Mac/Linux с поддержкой Ollama
- Jan: open-source альтернатива ChatGPT с локальными моделями
Создание кастомных моделей
Ollama позволяет создавать кастомные модели с помощью файла Modelfile:
# Создайте файл Modelfile
FROM llama3.1
SYSTEM """
Ты — ассистент для работы с документацией.
Отвечай кратко и по делу.
Всегда указывай источники.
Язык ответов — русский.
"""
PARAMETER temperature 0.7
PARAMETER top_p 0.9
# Создайте модель
ollama create my-assistant -f Modelfile
# Запустите
ollama run my-assistant
Оптимизация производительности
- Используйте квантизированные модели (q4_0) для экономии VRAM
- Закройте другие приложения, потребляющие GPU (игры, браузеры с аппаратным ускорением)
- Для CPU-режима — чем больше ядер, тем быстрее
- SSD значительно ускоряет загрузку модели по сравнению с HDD
- На Mac с Apple Silicon производительность отличная благодаря унифицированной памяти
Ограничения локальных LLM
- Качество уступает GPT-4o и Claude 3.5 — локальные модели меньше и проще
- Нет доступа к интернету — модель знает только то, что было в обучающих данных
- Ресурсоёмкость — для больших моделей нужен мощный ПК
- Русский язык хуже, чем у коммерческих моделей (но Llama 3.1 и Qwen справляются неплохо)
Ollama делает запуск локальных LLM доступным каждому. Установка занимает 5 минут, а первая модель скачивается одной командой. Для приватных задач, офлайн-работы и разработки AI-приложений — это лучший инструмент в 2026 году.