Microverse

Статьи

Переводы и личные заметки.

ВсеAIAI AgentsAgentsAnthropicAutomationCUDAClaude CodeDario AmodeiDevOpsDevelopment ToolsDistributed ComputingDistributed InferenceDistributed TrainingDockerEsseGPUHomelabInferenceInfrastructureKubernetesLLMMLOpsMachine LearningNCCLOpen SourceOpenAIOptimizationPostgreSQLProductivityPyTorchRayScalingTerminalTorchServeTransformersmistralvLLM

Оценка степени автономности ИИ-агентов на практике

Исследование реального использования ИИ‑агентов: как растёт автономность Claude Code, где люди доверяют больше, а где нужен строгий контроль — особенно в сферах с повышенным риском.

19 февраля 2026 г.

AIAgentsClaude CodeAnthropic

В моём мире правит искусственный интеллект (а в вашем, скорее всего, нет)

Статья исследует глубокий технологический разрыв между энтузиастами, использующими автономных ИИ-агентов, и большинством людей, включая профессиональных программистов, которые применяют нейросети лишь для базовых задач. Автор анализирует статистику и личный опыт, приходя к выводу, что мир разделился на изолированные информационные «пузыри» с принципиально разным уровнем понимания и использования возможностей искусственного интеллекта.

8 февраля 2026 г.

AIAI Agents

Юность технологий

Дарио Амодей (CEO Anthropic) в своем новом эссе рассуждает про AI, мир в новой реальности и безопасность.

26 января 2026 г.

AnthropicDario AmodeiAIEsse

Масштабирование PostgreSQL для обслуживания 800 миллионов пользователей ChatGPT

Статья описывает технические стратегии и методы оптимизации, которые позволили OpenAI масштабировать PostgreSQL до миллионов запросов в секунду для обслуживания 800 миллионов пользователей ChatGPT, используя архитектуру с одним основным сервером и сетью из 50 глобальных реплик.

23 января 2026 г.

OpenAIPostgreSQL

Куча лжи: отладка утечки памяти в vLLM

Инженеры Mistral AI подробно описывают процесс поиска «невидимой» утечки памяти в vLLM, в ходе которого им пришлось пройти путь от стандартных инструментов профилирования Python до низкоуровневой отладки зависимостей на уровне ядра.

23 января 2026 г.

mistralvLLMLLMAI

OpenCode — мощная Open Source альтернатива Claude Code

Обзор OpenCode — терминальной утилиты для AI-ассистированной разработки с поддержкой десятков провайдеров, плагинов и уникальных возможностей.

4 января 2026 г.

AIDevelopment ToolsOpen SourceTerminalProductivity

Distributed Data Parallel Training в обучении LLM

Обзор стратегий распределенного обучения, включая алгоритмы Ring All-Reduce и Tree All-Reduce для эффективной синхронизации градиентов между GPU.

6 апреля 2025 г.

Distributed TrainingLLMGPUNCCL

KV-cache в моделях transformers

Подробное объяснение механизма KV-кэширования в архитектуре Transformer, его влияния на скорость инференса и связанных с ним компромиссов по памяти.

27 января 2025 г.

TransformersLLMInferenceOptimization

Ray Compiled Graphs для оптимизированных AI нагрузок

Введение в Ray Compiled Graphs — новую функцию для оптимизации GPU-коммуникаций и снижения накладных расходов в распределенных AI приложениях.

14 января 2025 г.

RayGPUOptimizationDistributed Computing

Распределенный запуск LLM на нескольких GPU с помощью Ray и vLLM

Практический опыт настройки распределенного инференса LLM на нескольких серверах с использованием Ray и vLLM, включая решение проблем с разным объемом видеопамяти.

3 января 2025 г.

RayvLLMDistributed InferenceGPUHomelab

Принципы MLOps

Обзор ключевых концепций MLOps, включая автоматизацию пайплайнов, версионирование, тестирование и мониторинг ML-систем для обеспечения их надежности в продакшене.

3 января 2025 г.

MLOpsDevOpsMachine LearningAutomation

Сборка последней версии vLLM из исходников под CUDA 11.8 и Torch 2.5.1

Инструкция по сборке vLLM и vllm-flash-attention из исходников для обеспечения совместимости с CUDA 11.8 и PyTorch 2.5.1.

18 декабря 2024 г.

vLLMCUDADockerPyTorch

Развертывание LLM с помощью TorchServe + vLLM | PyTorch

Руководство по интеграции движка vLLM в TorchServe для создания высокопроизводительного производственного решения по обслуживанию больших языковых моделей.

14 ноября 2024 г.

TorchServevLLMLLMPyTorchInference

Проектирование кластеров Kubernetes — выбор размера рабочих узлов

Анализ преимуществ и недостатков использования крупных или мелких узлов в кластере Kubernetes, включая вопросы эффективности ресурсов, отказоустойчивости и масштабирования.

13 ноября 2024 г.

KubernetesInfrastructureScalingDevOps