Question 1

На каком железе работают ваши локальные модели?

Accepted Answer

Минимум — GPU 24GB VRAM (RTX 4090 или A5000) для Gemma 4 12B или Qwen 3.6 7B с 4-bit квантизацией. Для inference RAG-вопросов хватает CPU + 32GB RAM. Полноценный fine-tune — от A100 40GB.

Question 2

Можно ли заменить ChatGPT на локальную модель без потери качества?

Accepted Answer

Для задач с domain-knowledge — да, после fine-tune. Gemma 4 12B (или Qwen 3.6 7B) + LoRA на 5-10K корпоративных пар вопрос-ответ догоняет GPT-4 на узкой теме. Для open-ended генерации — пока нет.

Question 3

Что такое LightRAG и зачем он нужен?

Accepted Answer

LightRAG — гибридный knowledge-store: PostgreSQL-граф + Qdrant-вектор + LLM extraction. Превращает 150 документов в semantically-searchable базу с автоматическим выделением сущностей и связей. Используем как «семантическую память» всех проектов.

Question 4

Сколько занимает fine-tune и сколько стоит?

Accepted Answer

Подготовка датасета — 1-2 недели (зависит от качества исходных данных). Сам fine-tune — 4-12 часов на A100. Бюджет проекта от 400 тыс. ₽ (датасет + LoRA-веса + eval-инфраструктура).

Question 5

Сохраняется ли 152-ФЗ соответствие на всех этапах?

Accepted Answer

Да. Inference на вашем железе, training на ваших серверах, никаких внешних API. Подходит для медицины, банков, госсектора и любых ПД-чувствительных кейсов.

Локальные нейросети

Что входит

Когда нужно

Как мы работаем

Технологии

Часто задаваемые вопросы

Готовы обсудить проект?