Статьи
Переводы и личные заметки.
Сколько VRAM нужно для LLM? Считаем по формуле: память под веса, KV cache и overhead, как влияют квантизация, длина контекста и batch size — и что делать, если модель не влезает в видеокарту.
Квантизация LLM в 2026: чем отличаются FP16, FP8, INT8, INT4, AWQ, GPTQ и GGUF, сколько VRAM нужно и что выбрать для RTX 3090/4090, H100/B200 и CPU.
Разбираем speculative decoding в vLLM и SGLang: native MTP, Gemma 4 assistant-драфтеры, EAGLE-3, n-gram и DFLASH — где ускоряет, где ломается и как выбирать метод.
Сравниваем подходы к prefix caching в vLLM и SGLang: hash-based блоки vs radix tree, бенчмарки на H100, когда какой движок выбрать для serving.
Исследование реального использования ИИ‑агентов: как растёт автономность Claude Code, где люди доверяют больше, а где нужен строгий контроль — особенно в сферах с повышенным риском.
Статья исследует глубокий технологический разрыв между энтузиастами, использующими автономных ИИ-агентов, и большинством людей, включая профессиональных программистов, которые применяют нейросети лишь для базовых задач. Автор анализирует статистику и личный опыт, приходя к выводу, что мир разделился на изолированные информационные «пузыри» с принципиально разным уровнем понимания и использования возможностей искусственного интеллекта.
Дарио Амодей (CEO Anthropic) в своем новом эссе рассуждает про AI, мир в новой реальности и безопасность.
Статья описывает технические стратегии и методы оптимизации, которые позволили OpenAI масштабировать PostgreSQL до миллионов запросов в секунду для обслуживания 800 миллионов пользователей ChatGPT, используя архитектуру с одним основным сервером и сетью из 50 глобальных реплик.
Инженеры Mistral AI подробно описывают процесс поиска «невидимой» утечки памяти в vLLM, в ходе которого им пришлось пройти путь от стандартных инструментов профилирования Python до низкоуровневой отладки зависимостей на уровне ядра.
Обзор OpenCode — терминальной утилиты для AI-ассистированной разработки с поддержкой десятков провайдеров, плагинов и уникальных возможностей.
Обзор стратегий распределенного обучения, включая алгоритмы Ring All-Reduce и Tree All-Reduce для эффективной синхронизации градиентов между GPU.
Подробное объяснение механизма KV-кэширования в архитектуре Transformer, его влияния на скорость инференса и связанных с ним компромиссов по памяти.
Введение в Ray Compiled Graphs — новую функцию для оптимизации GPU-коммуникаций и снижения накладных расходов в распределенных AI приложениях.
Практический опыт настройки распределенного инференса LLM на нескольких серверах с использованием Ray и vLLM, включая решение проблем с разным объемом видеопамяти.
Обзор ключевых концепций MLOps, включая автоматизацию пайплайнов, версионирование, тестирование и мониторинг ML-систем для обеспечения их надежности в продакшене.
Инструкция по сборке vLLM и vllm-flash-attention из исходников для обеспечения совместимости с CUDA 11.8 и PyTorch 2.5.1.
Руководство по интеграции движка vLLM в TorchServe для создания высокопроизводительного производственного решения по обслуживанию больших языковых моделей.
Анализ преимуществ и недостатков использования крупных или мелких узлов в кластере Kubernetes, включая вопросы эффективности ресурсов, отказоустойчивости и масштабирования.