📖 Туториал15 мин22 февраля 2026 г.

Ollama: запуск LLM локально на своём компьютере

Как запустить языковые модели локально с помощью Ollama. Установка, выбор моделей, использование API и требования к железу.

Ollama — это инструмент для запуска больших языковых моделей (LLM) локально на вашем компьютере. Без облака, без подписок, без отправки данных на внешние серверы. Llama 3, Mistral, Gemma, DeepSeek и десятки других моделей можно установить одной командой. В этом руководстве разберём всё: от установки до использования API.

Зачем запускать LLM локально

  • Приватность: данные не покидают ваш компьютер — критично для конфиденциальных документов
  • Бесплатно: нет абонентской платы и лимитов на количество запросов
  • Офлайн: работает без интернета после загрузки модели
  • Кастомизация: можно дообучить модель на своих данных
  • Интеграция: REST API для встраивания в свои приложения

Системные требования

Размер моделиRAMGPU VRAMПримеры моделей
3B параметров8 GB4 GBLlama 3.2 3B, Phi-3 Mini
7–8B параметров16 GB8 GBLlama 3.1 8B, Mistral 7B, Gemma 2 9B
13–14B параметров32 GB12 GBLlama 3.1 13B, DeepSeek Coder 14B
30–34B параметров64 GB24 GBDeepSeek 33B, CodeLlama 34B
70B параметров128 GB48 GB+Llama 3.1 70B

Если GPU нет или VRAM не хватает, Ollama автоматически использует CPU. Будет медленнее, но работать будет.

Установка Ollama

Windows

  1. Скачайте установщик с ollama.com/download
  2. Запустите OllamaSetup.exe и следуйте инструкциям
  3. Ollama запустится как фоновый сервис (иконка в трее)
  4. Откройте терминал (PowerShell или CMD) и проверьте: ollama --version

macOS

brew install ollama

Или скачайте .dmg с официального сайта.

Linux

curl -fsSL https://ollama.com/install.sh | sh

Скачивание и запуск моделей

Основные команды

# Скачать и запустить модель
ollama run llama3.1

# Список скачанных моделей
ollama list

# Удалить модель
ollama rm llama3.1

# Скачать без запуска
ollama pull mistral

# Информация о модели
ollama show llama3.1

Рекомендуемые модели

МодельРазмерЛучше всего дляКоманда
Llama 3.1 8B4.7 GBУниверсальная, русский языкollama run llama3.1
Mistral 7B4.1 GBБыстрые ответы, рассужденияollama run mistral
Gemma 2 9B5.4 GBКачественные текстыollama run gemma2
DeepSeek Coder V28.9 GBПрограммированиеollama run deepseek-coder-v2
Phi-3 Mini2.3 GBСлабые ПК, быстрые ответыollama run phi3
Qwen 2.5 7B4.4 GBМультиязычностьollama run qwen2.5

Использование в терминале

После команды ollama run llama3.1 откроется интерактивный чат. Просто пишите сообщения и получайте ответы:

>>> Объясни рекурсию простыми словами

Представь, что ты стоишь перед двумя зеркалами...

>>> /bye   # выход из чата

Полезные команды в чате

  • /bye — выход
  • /show info — информация о модели
  • /set system "Ты — помощник..." — системный промпт
  • /save mymodel — сохранить настройки как кастомную модель

REST API

Ollama предоставляет REST API на http://localhost:11434, совместимый с форматом OpenAI. Это значит, что большинство приложений, работающих с OpenAI API, могут работать с Ollama без изменений.

Примеры запросов

# Генерация ответа
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1",
  "prompt": "Что такое Docker?",
  "stream": false
}'

# Чат (формат OpenAI)
curl http://localhost:11434/v1/chat/completions -d '{
  "model": "llama3.1",
  "messages": [
    {"role": "user", "content": "Привет!"}
  ]
}'

Использование с Python

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # любое значение
)

response = client.chat.completions.create(
    model="llama3.1",
    messages=[{"role": "user", "content": "Привет!"}]
)

print(response.choices[0].message.content)

Веб-интерфейсы для Ollama

Терминал не всем удобен. Вот популярные веб-интерфейсы:

  • Open WebUI: полнофункциональный интерфейс а-ля ChatGPT. Установка: docker run -p 3000:8080 ghcr.io/open-webui/open-webui
  • Chatbox: десктоп-приложение для Windows/Mac/Linux с поддержкой Ollama
  • Jan: open-source альтернатива ChatGPT с локальными моделями

Создание кастомных моделей

Ollama позволяет создавать кастомные модели с помощью файла Modelfile:

# Создайте файл Modelfile
FROM llama3.1

SYSTEM """
Ты — ассистент для работы с документацией.
Отвечай кратко и по делу.
Всегда указывай источники.
Язык ответов — русский.
"""

PARAMETER temperature 0.7
PARAMETER top_p 0.9
# Создайте модель
ollama create my-assistant -f Modelfile

# Запустите
ollama run my-assistant

Оптимизация производительности

  • Используйте квантизированные модели (q4_0) для экономии VRAM
  • Закройте другие приложения, потребляющие GPU (игры, браузеры с аппаратным ускорением)
  • Для CPU-режима — чем больше ядер, тем быстрее
  • SSD значительно ускоряет загрузку модели по сравнению с HDD
  • На Mac с Apple Silicon производительность отличная благодаря унифицированной памяти

Ограничения локальных LLM

  • Качество уступает GPT-4o и Claude 3.5 — локальные модели меньше и проще
  • Нет доступа к интернету — модель знает только то, что было в обучающих данных
  • Ресурсоёмкость — для больших моделей нужен мощный ПК
  • Русский язык хуже, чем у коммерческих моделей (но Llama 3.1 и Qwen справляются неплохо)

Ollama делает запуск локальных LLM доступным каждому. Установка занимает 5 минут, а первая модель скачивается одной командой. Для приватных задач, офлайн-работы и разработки AI-приложений — это лучший инструмент в 2026 году.

Понравилась статья?

Поделитесь с коллегами и друзьями

Читайте также

Хотите больше таких статей?

Подпишитесь на еженедельный дайджест — новые инструменты, промпты и гиды каждую неделю

Подписаться бесплатно
ещё 3
Сравнить (0)