Raw Input

Разбираю LLM, агентские инструменты и инфру, которую сам запускаю

vLLM, SGLang, llama.cpp, Codex, OpenCode, железо, бенчи и всё, что обычно всплывает, когда начинаешь это реально трогать.

Последний разбор

Квантизация LLM в 2026: FP16, FP8, INT8, INT4, AWQ, GPTQ и GGUF — что выбрать под своё железо

Квантизация LLM в 2026: чем отличаются FP16, FP8, INT8, INT4, AWQ, GPTQ и GGUF, сколько VRAM нужно и что выбрать для RTX 3090/4090, H100/B200 и CPU.

14 мая 2026 г.LLMInferenceQuantization
Открыть статью

Raw Input

Последние разборы

Все статьи

Что под капотом

Темы, которые тут чаще всего всплывают

Inference

vLLM, SGLang, KV cache, serving, бенчи и всё, что начинает болеть под нагрузкой.

vLLMSGLangKV cache

Agents

Codex, OpenCode, Claude Code, MCP, skills и реальные workflows с агентами.

CodexOpenCodeMCP

Local Inference

llama.cpp, локальные модели, кванты, контекст, VRAM и всё, что всплывает при запуске дома.

llama.cppGGUFVRAM

Homelab / Ops

Железо, GPU, сети, туннели, локальный инференс и всё, что работает ровно до первого reboot.

GPUHomelabOps

Tools From The Lab

Не каталог приложений. Просто штуки, которые живут рядом

Часть проектов работает как источник сигналов, часть как отдельные эксперименты. Таблицу убрал: статус и стек тут не главное.

Держу в курсе

Основной поток всё равно в Telegram

Короткие сигналы, быстрые выводы, релизы, железо, модели и иногда очень странные новости.

Перейти в канал
Мой тг · про факапы@fuckup_files