Raw Input

Разбираю LLM, агентские инструменты и инфру, которую сам запускаю

vLLM, SGLang, llama.cpp, Codex, OpenCode, железо, бенчи и всё, что обычно всплывает, когда начинаешь это реально трогать.

Читать разборы Telegram CV

Последний разбор

Сколько VRAM нужно для LLM: как посчитать веса, KV cache и overhead

Сколько VRAM нужно для LLM? Считаем по формуле: память под веса, KV cache и overhead, как влияют квантизация, длина контекста и batch size — и что делать, если модель не влезает в видеокарту.

29 мая 2026 г.LLMInferenceVRAM

Открыть статью

Raw Input

Последние разборы

Все статьи

14 мая 2026 г.

Квантизация LLM в 2026: FP16, FP8, INT8, INT4, AWQ, GPTQ и GGUF — что выбрать под своё железо

Квантизация LLM в 2026: чем отличаются FP16, FP8, INT8, INT4, AWQ, GPTQ и GGUF, сколько VRAM нужно и что выбрать для RTX 3090/4090, H100/B200 и CPU.

5 мая 2026 г.

Спекулятивное декодирование в vLLM и SGLang: MTP, EAGLE-3 и n-gram в 2026

Разбираем speculative decoding в vLLM и SGLang: native MTP, Gemma 4 assistant-драфтеры, EAGLE-3, n-gram и DFLASH — где ускоряет, где ломается и как выбирать метод.

30 апреля 2026 г.

Как бенчмаркать локальную LLM в 2026: TTFT, TPOT, KV cache, context length и VRAM

Что под капотом

Темы, которые тут чаще всего всплывают

Inference

vLLM, SGLang, KV cache, serving, бенчи и всё, что начинает болеть под нагрузкой.

vLLMSGLangKV cache

Agents

Codex, OpenCode, Claude Code, MCP, skills и реальные workflows с агентами.

CodexOpenCodeMCP

Local Inference

llama.cpp, локальные модели, кванты, контекст, VRAM и всё, что всплывает при запуске дома.

llama.cppGGUFVRAM

Homelab / Ops

Железо, GPU, сети, туннели, локальный инференс и всё, что работает ровно до первого reboot.

GPUHomelabOps

Tools From The Lab

Не каталог приложений. Просто штуки, которые живут рядом

Часть проектов работает как источник сигналов, часть как отдельные эксперименты. Таблицу убрал: статус и стек тут не главное.

GitHub Trending Dashboard

Смотрю, что растёт в open source и какие инструменты начинают всплывать чаще обычного.

Открыть

AI Slop News

Поток AI-релизов, моделей и новостей. Не финальный вывод, а сырьё для следующих разборов.

Открыть

Hermes Managed

Персональный Telegram-агент как живой продуктовый эксперимент. Две кнопки, изолированная среда, нормальная модель.

Открыть

Держу в курсе

Основной поток всё равно в Telegram

Короткие сигналы, быстрые выводы, релизы, железо, модели и иногда очень странные новости.

Перейти в канал