Raw Input

Разбираю LLM, агентские инструменты и инфру, которую сам запускаю

vLLM, SGLang, llama.cpp, Codex, OpenCode, железо, бенчи и всё, что обычно всплывает, когда начинаешь это реально трогать.

Последний разбор

Спекулятивное декодирование в vLLM и SGLang: MTP, EAGLE-3 и n-gram в 2026

Разбираем speculative decoding в vLLM и SGLang: native MTP, Gemma 4 assistant-драфтеры, EAGLE-3, n-gram и DFLASH — где ускоряет, где ломается и как выбирать метод.

5 мая 2026 г.LLMInferencevLLM
Открыть статью

Raw Input

Последние разборы

Все статьи

Что под капотом

Темы, которые тут чаще всего всплывают

Inference

vLLM, SGLang, KV cache, serving, бенчи и всё, что начинает болеть под нагрузкой.

vLLMSGLangKV cache

Agents

Codex, OpenCode, Claude Code, MCP, skills и реальные workflows с агентами.

CodexOpenCodeMCP

Local Inference

llama.cpp, локальные модели, кванты, контекст, VRAM и всё, что всплывает при запуске дома.

llama.cppGGUFVRAM

Homelab / Ops

Железо, GPU, сети, туннели, локальный инференс и всё, что работает ровно до первого reboot.

GPUHomelabOps

Tools From The Lab

Не каталог приложений. Просто штуки, которые живут рядом

Часть проектов работает как источник сигналов, часть как отдельные эксперименты. Таблицу убрал: статус и стек тут не главное.

Держу в курсе

Основной поток всё равно в Telegram

Короткие сигналы, быстрые выводы, релизы, железо, модели и иногда очень странные новости.

Перейти в канал
Мой тг · про факапы@fuckup_files