Локальные нейросети

On-premise LLM на собственном железе, fine-tune под корпоративные данные, RAG

Разворачиваем нейросети на вашей инфраструктуре, без отправки данных в зарубежные облака. Подходит, когда передача в OpenAI/Anthropic невозможна по соображениям 152-ФЗ, коммерческой тайны или госрегулирования.

Что входит

  • Fine-tune Gemma 4 / Qwen 3.6 / LLaMA под корпоративные данные через LoRA с 4-bit квантизацией. Опыт: проект Gemma Oracle для речного оператора (история заявок, тарифы, политики).
  • RAG-системы на LightRAG (graph + vector hybrid) с собственным embedding’ом через Bge-M3 multilingual. Self-hosted PostgreSQL + Qdrant.
  • Российские альтернативы: интеграция YandexGPT 5 Lite (8B, открытые веса, 32K контекст), GigaChat Lite, T-Lite — там, где облачное API допустимо.
  • Подготовка датасета из ваших источников (CSV истории, чаты поддержки, документация) с очисткой и валидацией.
  • Production-окружение: Ollama / vLLM / llama.cpp в зависимости от latency и размера модели, мониторинг через Prometheus.

Когда нужно

  • Работаете с ПД клиентов и нельзя отправлять данные во внешние API (152-ФЗ, ФСТЭК, банковская/медицинская тайна).
  • Нужен LLM-ассистент для узкой доменной области, где универсальные модели «галлюцинируют».
  • Объём запросов высокий — облачные API становятся дороже собственного железа.
  • Госсектор: требуется решение на отечественном или открытом стеке.

Как мы работаем

  1. Аудит данных и инфраструктуры (1 неделя): какие данные есть, в каком формате, какое железо доступно.
  2. Подготовка датасета (1-2 недели): экспорт, очистка, разбивка на train/val/test, согласование форматов с заказчиком.
  3. Fine-tune + eval-loop (1-2 недели): несколько прогонов LoRA с разными гиперпараметрами, выбор лучшей checkpoint по validation-метрикам.
  4. Production-развёртывание (1 неделя): Ollama/vLLM, мониторинг, документация по обновлению модели.

Технологии

Hugging Face Transformers, PEFT (LoRA), bitsandbytes (4-bit), Ollama, vLLM, llama.cpp, Bge-M3, LightRAG, Qdrant, PostgreSQL pgvector, Docker, NVIDIA Container Toolkit. Модели: Gemma 4 (multimodal text/audio/images, 256K context, 140+ языков), Qwen 3.6 (open-weight, конкурирует с Gemma 4 по multimodal), LLaMA 3, YandexGPT 5 Lite, T-Lite, GigaChat MoE.

Опишите задачу — обсудим как закрыть её целиком.

Часто задаваемые вопросы

На каком железе работают ваши локальные модели?
Минимум — GPU 24GB VRAM (RTX 4090 или A5000) для Gemma 4 12B или Qwen 3.6 7B с 4-bit квантизацией. Для inference RAG-вопросов хватает CPU + 32GB RAM. Полноценный fine-tune — от A100 40GB.
Можно ли заменить ChatGPT на локальную модель без потери качества?
Для задач с domain-knowledge — да, после fine-tune. Gemma 4 12B (или Qwen 3.6 7B) + LoRA на 5-10K корпоративных пар вопрос-ответ догоняет GPT-4 на узкой теме. Для open-ended генерации — пока нет.
Что такое LightRAG и зачем он нужен?
LightRAG — гибридный knowledge-store: PostgreSQL-граф + Qdrant-вектор + LLM extraction. Превращает 150 документов в semantically-searchable базу с автоматическим выделением сущностей и связей. Используем как «семантическую память» всех проектов.
Сколько занимает fine-tune и сколько стоит?
Подготовка датасета — 1-2 недели (зависит от качества исходных данных). Сам fine-tune — 4-12 часов на A100. Бюджет проекта от 400 тыс. ₽ (датасет + LoRA-веса + eval-инфраструктура).
Сохраняется ли 152-ФЗ соответствие на всех этапах?
Да. Inference на вашем железе, training на ваших серверах, никаких внешних API. Подходит для медицины, банков, госсектора и любых ПД-чувствительных кейсов.

Готовы обсудить проект?

Напишите — обсудим задачу и сроки.

Обсудить проект →