Локальные нейросети
On-premise LLM на собственном железе, fine-tune под корпоративные данные, RAG
Разворачиваем нейросети на вашей инфраструктуре, без отправки данных в зарубежные облака. Подходит, когда передача в OpenAI/Anthropic невозможна по соображениям 152-ФЗ, коммерческой тайны или госрегулирования.
Что входит
- Fine-tune Gemma 4 / Qwen 3.6 / LLaMA под корпоративные данные через LoRA с 4-bit квантизацией. Опыт: проект Gemma Oracle для речного оператора (история заявок, тарифы, политики).
- RAG-системы на LightRAG (graph + vector hybrid) с собственным embedding’ом через Bge-M3 multilingual. Self-hosted PostgreSQL + Qdrant.
- Российские альтернативы: интеграция YandexGPT 5 Lite (8B, открытые веса, 32K контекст), GigaChat Lite, T-Lite — там, где облачное API допустимо.
- Подготовка датасета из ваших источников (CSV истории, чаты поддержки, документация) с очисткой и валидацией.
- Production-окружение: Ollama / vLLM / llama.cpp в зависимости от latency и размера модели, мониторинг через Prometheus.
Когда нужно
- Работаете с ПД клиентов и нельзя отправлять данные во внешние API (152-ФЗ, ФСТЭК, банковская/медицинская тайна).
- Нужен LLM-ассистент для узкой доменной области, где универсальные модели «галлюцинируют».
- Объём запросов высокий — облачные API становятся дороже собственного железа.
- Госсектор: требуется решение на отечественном или открытом стеке.
Как мы работаем
- Аудит данных и инфраструктуры (1 неделя): какие данные есть, в каком формате, какое железо доступно.
- Подготовка датасета (1-2 недели): экспорт, очистка, разбивка на train/val/test, согласование форматов с заказчиком.
- Fine-tune + eval-loop (1-2 недели): несколько прогонов LoRA с разными гиперпараметрами, выбор лучшей checkpoint по validation-метрикам.
- Production-развёртывание (1 неделя): Ollama/vLLM, мониторинг, документация по обновлению модели.
Технологии
Hugging Face Transformers, PEFT (LoRA), bitsandbytes (4-bit), Ollama, vLLM, llama.cpp, Bge-M3, LightRAG, Qdrant, PostgreSQL pgvector, Docker, NVIDIA Container Toolkit. Модели: Gemma 4 (multimodal text/audio/images, 256K context, 140+ языков), Qwen 3.6 (open-weight, конкурирует с Gemma 4 по multimodal), LLaMA 3, YandexGPT 5 Lite, T-Lite, GigaChat MoE.
Опишите задачу — обсудим как закрыть её целиком.
Часто задаваемые вопросы
На каком железе работают ваши локальные модели?
Минимум — GPU 24GB VRAM (RTX 4090 или A5000) для Gemma 4 12B или Qwen 3.6 7B с 4-bit квантизацией. Для inference RAG-вопросов хватает CPU + 32GB RAM. Полноценный fine-tune — от A100 40GB.
Можно ли заменить ChatGPT на локальную модель без потери качества?
Для задач с domain-knowledge — да, после fine-tune. Gemma 4 12B (или Qwen 3.6 7B) + LoRA на 5-10K корпоративных пар вопрос-ответ догоняет GPT-4 на узкой теме. Для open-ended генерации — пока нет.
Что такое LightRAG и зачем он нужен?
LightRAG — гибридный knowledge-store: PostgreSQL-граф + Qdrant-вектор + LLM extraction. Превращает 150 документов в semantically-searchable базу с автоматическим выделением сущностей и связей. Используем как «семантическую память» всех проектов.
Сколько занимает fine-tune и сколько стоит?
Подготовка датасета — 1-2 недели (зависит от качества исходных данных). Сам fine-tune — 4-12 часов на A100. Бюджет проекта от 400 тыс. ₽ (датасет + LoRA-веса + eval-инфраструктура).
Сохраняется ли 152-ФЗ соответствие на всех этапах?
Да. Inference на вашем железе, training на ваших серверах, никаких внешних API. Подходит для медицины, банков, госсектора и любых ПД-чувствительных кейсов.
Готовы обсудить проект?
Напишите — обсудим задачу и сроки.
Обсудить проект →