Raw Input

Разбираю LLM, агентские инструменты и инфру, которую сам запускаю

vLLM, SGLang, llama.cpp, Codex, OpenCode, железо, бенчи и всё, что обычно всплывает, когда начинаешь это реально трогать.

Последний разбор

Движки инференса LLM и локальное AI-железо (2026)

Локальный инференс LLM начинается не с выбора движка, а с железа, формы нагрузки и модели обслуживания: для большинства это llama.cpp (портативность, GGUF, широчайший охват моделей) или vLLM (когда надо обслуживать пользователей), на Mac - MLX, в датацентре - SGLang/TensorRT-LLM, а ExLlamaV2/V3 остаются нишевым выбором энтузиаста ради скорости на одной потребительской RTX, потому что реальная производительность упирается в пропускную способность памяти, KV-кэш, межсоединения и планировщик, а не в объём VRAM

21 июня 2026 г.enginesinferencevllm
Открыть статью

Raw Input

Последние разборы

Все статьи

Что под капотом

Темы, которые тут чаще всего всплывают

Inference

vLLM, SGLang, KV cache, serving, бенчи и всё, что начинает болеть под нагрузкой.

vLLMSGLangKV cache

Agents

Codex, OpenCode, Claude Code, MCP, skills и реальные workflows с агентами.

CodexOpenCodeMCP

Local Inference

llama.cpp, локальные модели, кванты, контекст, VRAM и всё, что всплывает при запуске дома.

llama.cppGGUFVRAM

Homelab / Ops

Железо, GPU, сети, туннели, локальный инференс и всё, что работает ровно до первого reboot.

GPUHomelabOps

Tools From The Lab

Не каталог приложений. Просто штуки, которые живут рядом

Часть проектов работает как источник сигналов, часть как отдельные эксперименты. Таблицу убрал: статус и стек тут не главное.

Держу в курсе

Основной поток всё равно в Telegram

Короткие сигналы, быстрые выводы, релизы, железо, модели и иногда очень странные новости.

Перейти в канал
Мой тг · про факапы@fuckup_files