Alexey Fateev

MLOps | LLMOps Engineer

  • πŸ€– Π Π°Π±ΠΎΡ‚Π°ΡŽ с большими языковыми модСлями
  • πŸ”§ Π Π°Π·Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°ΡŽ инфраструктуру для AI | ML | LLM ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΎΠ²
  • πŸ“’ Мой Ρ‚Π΅Π»Π΅Π³Ρ€Π°ΠΌΠΌ ΠΊΠ°Π½Π°Π» https://t.me/fuckup_files

Distributed Data Parallel Training Π² ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ LLM

Π’Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠ° соврСмСнных ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ машинного обучСния становится всС Π±ΠΎΠ»Π΅Π΅ Ρ‚Ρ€Π΅Π±ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Π·Π°Π΄Π°Ρ‡Π΅ΠΉ. По ΠΌΠ΅Ρ€Π΅ Ρ‚ΠΎΠ³ΠΎ ΠΊΠ°ΠΊ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΡƒΡŽΡ‚ΡΡ Π΄ΠΎ сотСн ΠΌΠΈΠ»Π»ΠΈΠ°Ρ€Π΄ΠΎΠ² ΠΈΠ»ΠΈ Π΄Π°ΠΆΠ΅ Ρ‚Ρ€ΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Π° датасСты растут Π΄ΠΎ бСспрСцСдСнтных Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠ², ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Ρ‹ с использованиСм ΠΎΠ΄Π½ΠΎΠ³ΠΎ устройства становятся Π½Π΅Ρ€Π΅Π°Π»ΠΈΠ·ΡƒΠ΅ΠΌΡ‹ΠΌΠΈ. Рассмотрим GPT-4 с Π΅Π³ΠΎ ΠΎΡ†Π΅Π½ΠΎΡ‡Π½Ρ‹ΠΌΠΈ 1,8 Ρ‚Ρ€ΠΈΠ»Π»ΠΈΠΎΠ½Π°ΠΌΠΈ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ²: Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠ° Ρ‚Π°ΠΊΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU заняла Π±Ρ‹ нСсколько тысячСлСтий 1. Для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ этих Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡ ΠΈΠ½ΠΆΠ΅Π½Π΅Ρ€Ρ‹ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π»ΠΈ слоТныС стратСгии распрСдСлСнного обучСния. Одна ΠΈΠ· Ρ‚Π°ΠΊΠΈΡ… стратСгий β€” распрСдСлСнный ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΠΈΠ·ΠΌ Π΄Π°Π½Π½Ρ‹Ρ…. ...

April 6, 2025 Β· 8 min

KV-cache Π² модСлях transformers

ΠžΡ€ΠΈΠ³ΠΈΠ½Π°Π»ΡŒΠ½Π°Ρ ΡΡ‚Π°Ρ‚ΡŒΡ: December 2024 TL;DR По ΠΌΠ΅Ρ€Π΅ увСличСния слоТности ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€Π° ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π½Π° основС трансформСров, растСт ΠΈ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ скорости ΠΈΡ… Π²Ρ‹Π²ΠΎΠ΄Π° (inference), особСнно Π² Ρ‡Π°Ρ‚-прилоТСниях, Π³Π΄Π΅ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΠΈ ΠΎΠΆΠΈΠ΄Π°ΡŽΡ‚ ΠΌΠ³Π½ΠΎΠ²Π΅Π½Π½Ρ‹Ρ… ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ². ΠšΡΡˆΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΊΠ»ΡŽΡ‡Π΅ΠΉ ΠΈ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ (Key-Value, KV) β€” это ΡƒΠΌΠ½Ρ‹ΠΉ ΠΏΡ€ΠΈΠ΅ΠΌ для достиТСния этой Ρ†Π΅Π»ΠΈ: Π²ΠΎ врСмя Π²Ρ‹Π²ΠΎΠ΄Π° (inference) ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ ΠΊΠ»ΡŽΡ‡Π΅ΠΉ ΠΈ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ Π²Ρ‹Ρ‡ΠΈΡΠ»ΡΡŽΡ‚ΡΡ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ сгСнСрированного Ρ‚ΠΎΠΊΠ΅Π½Π°. KV-ΠΊΡΡˆΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ сохраняСт эти ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ Π² памяти, Ρ‚Π°ΠΊ Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΏΠΎΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΡ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² ΠΌΡ‹ вычисляСм ΠΊΠ»ΡŽΡ‡ΠΈ ΠΈ значСния Ρ‚ΠΎΠ»ΡŒΠΊΠΎ для Π½ΠΎΠ²Ρ‹Ρ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², вмСсто Ρ‚ΠΎΠ³ΠΎ Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠ΅Ρ€Π΅ΡΡ‡ΠΈΡ‚Ρ‹Π²Π°Ρ‚ΡŒ всё Π·Π°Π½ΠΎΠ²ΠΎ. ...

January 27, 2025 Β· 14 min

Ray Compiled Graphs для ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… AI Π½Π°Π³Ρ€ΡƒΠ·ΠΎΠΊ

ΠžΡ€ΠΈΠ³ΠΈΠ½Π°Π»ΡŒΠ½Π°Ρ ΡΡ‚Π°Ρ‚ΡŒΡ: Ray Compiled Graphs: Optimized AI Workloads with Native GPU Communication ΠŸΠ΅Ρ€Π΅Π²ΠΎΠ΄: January 2025 Π’Π²Π΅Π΄Π΅Π½ΠΈΠ΅ По ΠΌΠ΅Ρ€Π΅ Ρ‚ΠΎΠ³ΠΎ ΠΊΠ°ΠΊ AI ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠ°ΡŽΡ‚ расти Π² слоТности ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€Π΅, Ρ€Π°Π±ΠΎΡ‡ΠΈΠ΅ Π½Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ ΠΈ прилоТСния Π²ΠΎΠΊΡ€ΡƒΠ³ этих ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΡΠΎΠ·Π΄Π°ΡŽΡ‚ Π½ΠΎΠ²Ρ‹Π΅ трСбования ΠΊ Π±Π°Π·ΠΎΠ²ΠΎΠΉ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½ΠΎΠΉ инфраструктурС ΠΈ ΠΏΡ€ΠΈΠΌΠΈΡ‚ΠΈΠ²Π°ΠΌ. Π’ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ Ρ‚Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½Ρ‹Ρ… CPU-ΠΎΡ€ΠΈΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… Ρ€Π°Π±ΠΎΡ‡ΠΈΡ… Π½Π°Π³Ρ€ΡƒΠ·ΠΎΠΊ, Π½Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ для Π±ΠΎΠ»ΡŒΡˆΠΈΡ… AI ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, Ρ‚Π°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ training ΠΈ inference, ΡΠ²Π»ΡΡŽΡ‚ΡΡ прСимущСствСнно GPU-интСнсивными ΠΈ часто Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‚ распрСдСлСнных вычислСний ΠΈ ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ†ΠΈΠΈ ΠΌΠ΅ΠΆΠ΄Ρƒ дСсятками ΠΈΠ»ΠΈ сотнями ускоритСлСй. ...

January 14, 2025 Β· 9 min

РаспрСдСлСнный запуск LLM Π½Π° Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… GPU с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Ray ΠΈ vLLM

Π’ этой ΡΡ‚Π°Ρ‚ΡŒΠ΅ я подСлюсь практичСским ΠΎΠΏΡ‹Ρ‚ΠΎΠΌ инфСрСнса LLM Π½Π° Π΄Π²ΡƒΡ… сСрвСрах с Ρ€Π°Π·Π½Ρ‹ΠΌΠΈ GPU. Π‘ΠΎΠ»ΡŒΡˆΠΈΠ΅ языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‚ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… рСсурсов (vRAM), ΠΈ распрСдСлСнный запуск с использованиСм инструмСнтов, Ρ‚Π°ΠΊΠΈΡ… ΠΊΠ°ΠΊ Ray, ΠΌΠΎΠΆΠ΅Ρ‚ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΡƒΠΏΡ€ΠΎΡΡ‚ΠΈΡ‚ΡŒ этот процСсс. Π’ процСссС Ρ€Π°Π±ΠΎΡ‚Ρ‹ я столкнулся с ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠΎΠΉ Π½Π΅Ρ€Π°Π²Π½ΠΎΠΌΠ΅Ρ€Π½ΠΎΠ³ΠΎ распрСдСлСния рСсурсов, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π²ΠΈΠ΄Π΅ΠΎΠΊΠ°Ρ€Ρ‚Ρ‹ ΠΈΠΌΠ΅ΡŽΡ‚ Ρ€Π°Π·Π½Ρ‹ΠΉ объСм vRAM, ΠΈ ΠΏΠΎΠ»ΠΎΠ²ΠΈΠ½Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ·Π½Π°Ρ‡Π°Π»ΡŒΠ½ΠΎ Π½Π΅ ΠΏΠΎΠΌΠ΅Ρ‰Π°Π»Π°ΡΡŒ Π½Π° ΠΌΠ΅Π½ΡŒΡˆΡƒΡŽ GPU. Ray: основа распрСдСлСнных вычислСний Ray прСдставляСт собой Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ для распрСдСлСнных вычислСний, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ идСально ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΈΡ‚ для Π½Π°ΡˆΠΈΡ… Π·Π°Π΄Π°Ρ‡. Π•Π³ΠΎ ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Π΅ прСимущСства: ...

January 3, 2025 Β· 5 min Β· ΠΠ»Π΅ΠΊΡΠ΅ΠΉ Π€Π°Ρ‚Π΅Π΅Π²

ΠŸΡ€ΠΈΠ½Ρ†ΠΈΠΏΡ‹ MLOps

ΠžΡ€ΠΈΠ³ΠΈΠ½Π°Π»ΡŒΠ½Π°Ρ ΡΡ‚Π°Ρ‚ΡŒΡ: MLOps Principles ΠŸΠ΅Ρ€Π΅Π²ΠΎΠ΄: January 2025 ΠŸΡ€ΠΈΠ½Ρ†ΠΈΠΏΡ‹ MLOps Π’ связи с растущим Π²Π½Π΅Π΄Ρ€Π΅Π½ΠΈΠ΅ΠΌ Ρ‚Π΅Ρ…Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ машинного обучСния ΠΈ искусствСнного ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚Π° Π² ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½Ρ‹Π΅ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Ρ‹ ΠΈ сСрвисы, Π²ΠΎΠ·Π½ΠΈΠΊΠ°Π΅Ρ‚ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ Π² установлСнии ΠΏΠ΅Ρ€Π΅Π΄ΠΎΠ²Ρ‹Ρ… ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊ ΠΈ инструмСнтов для тСстирования, развСртывания, управлСния ΠΈ ΠΌΠΎΠ½ΠΈΡ‚ΠΎΡ€ΠΈΠ½Π³Π° ML-ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π² ΠΏΡ€ΠΎΠΌΡ‹ΡˆΠ»Π΅Π½Π½ΠΎΠΉ эксплуатации. MLOps позволяСт Π½Π°ΠΌ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ β€œΡ‚Π΅Ρ…Π½ΠΈΡ‡Π΅ΡΠΊΠΈΠΉ долг” Π² прилоТСниях машинного обучСния. Богласно ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΡŽ SIG MLOps, β€œΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ ΠΊ MLOps ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹ машинного обучСния ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°ΡŽΡ‚ΡΡ систСматичСски ΠΈ Π½Π°Ρ€Π°Π²Π½Π΅ с Π΄Ρ€ΡƒΠ³ΠΈΠΌΠΈ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½Ρ‹ΠΌΠΈ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°ΠΌΠΈ Π² срСдС CI/CD. МодСли машинного обучСния ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Ρ€Π°Π·Π²Π΅Ρ€Π½ΡƒΡ‚Ρ‹ совмСстно с сСрвисами, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΈΡ… ΠΎΠ±ΡΠ»ΡƒΠΆΠΈΠ²Π°ΡŽΡ‚ ΠΈ ΠΏΠΎΡ‚Ρ€Π΅Π±Π»ΡΡŽΡ‚, ΠΊΠ°ΠΊ Ρ‡Π°ΡΡ‚ΡŒ Π΅Π΄ΠΈΠ½ΠΎΠ³ΠΎ процСсса Ρ€Π΅Π»ΠΈΠ·Π°.” Бтандартизация этих ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½Π° Π½Π° ускорСниС внСдрСния ML/AI Π² ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½Ρ‹Π΅ систСмы ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΡŽ процСсса Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½ΠΎΠ³ΠΎ обСспСчСния. Π’ дальнСйшСм ΠΌΡ‹ рассмотрим ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Π΅ ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΠΈ MLOps, Π²ΠΊΠ»ΡŽΡ‡Π°Ρ ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΠΎ-ΠΈΠ½ΠΊΡ€Π΅ΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½ΡƒΡŽ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ (Iterative-Incremental Development), Π°Π²Ρ‚ΠΎΠΌΠ°Ρ‚ΠΈΠ·Π°Ρ†ΠΈΡŽ (Automation), Π½Π΅ΠΏΡ€Π΅Ρ€Ρ‹Π²Π½ΠΎΠ΅ Ρ€Π°Π·Π²Π΅Ρ€Ρ‚Ρ‹Π²Π°Π½ΠΈΠ΅ (Continuous Deployment), вСрсионированиС (Versioning), тСстированиС (Testing), Π²ΠΎΡΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ (Reproducibility) ΠΈ ΠΌΠΎΠ½ΠΈΡ‚ΠΎΡ€ΠΈΠ½Π³ (Monitoring). ...

January 3, 2025 Β· 17 min

Π‘Π±ΠΎΡ€ΠΊΠ° послСднСй вСрсии vLLM ΠΈΠ· исходников ΠΏΠΎΠ΄ CUDA 11.8 ΠΈ Torch 2.5.1

Π£ нас Π΅ΡΡ‚ΡŒ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° с CUDA. Π£ нас 11.8 вСрсия Π² кластСрС, ΠΈ Π½Π° Ρ‚Π΅ΠΊΡƒΡ‰ΠΈΠΉ ΠΌΠΎΠΌΠ΅Π½Ρ‚ ΠΎΠ±Π½ΠΎΠ²ΠΈΡ‚ΡŒ Π½Π° 12+ Π½Π΅ ΠΌΠΎΠΆΠ΅ΠΌ, ΠΈ ΠΏΠΎ этому приходится Π²Ρ‹ΠΊΡ€ΡƒΡ‡ΠΈΠ²Π°Ρ‚ΡŒΡΡ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ способами, Π·Π°Ρ‡Π°ΡΡ‚ΡƒΡŽ Π±ΠΎΠ»Π΅Π·Π½Π΅Π½Π½Ρ‹ΠΌΠΈ. Π˜Ρ‚Π°ΠΊ. НуТСн свСТий ΠΎΠ±Ρ€Π°Π· vLLM, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π±ΡƒΠ΄Π΅Ρ‚ Ρ‚Π°ΠΌ ΠΈΠ½Ρ„Π΅Ρ€ΠΈΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π²Π½ΡƒΡ‚Ρ€ΠΈ kServe. Π‘Π²Π΅ΠΆΠ°ΠΊ ΡƒΠΌΠ΅Π΅Ρ‚ ΠΈΠ½Ρ„Π΅Ρ€ΠΈΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ Score ΠΈ Embedding. Π£ Ρ€Π°Π·Ρ€Π°Π±ΠΎΠ² vLLM Π½Π° Π³ΠΈΡ‚Ρ…Π°Π±Π΅ поломались ΠΈΡ… ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½Ρ‹ создания Ρ€Π΅Π»ΠΈΠ·ΠΎΠ², ΠΈ ΠΎΠ½ΠΈ ΠΈΡ… Ρ‡ΠΈΠ½ΠΈΡ‚ΡŒ ΠΏΠΎΠΊΠ° Π½Π΅ хотят, Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ Π΅ΡΡ‚ΡŒ Π½Π΅Ρ‚ Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ whl ΠΏΠΎΠ΄ CUDA 11.8 ΠΈ нашСго ΠΏΠ΅Ρ‚ΡƒΡ…ΠΎΠ½Π°. Помимо всСго этого Π΅ΡΡ‚ΡŒ другая ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° - Π½Π°ΠΌ Π½ΡƒΠΆΠ΅Π½ vllm-flash-attention (Ρ„ΠΎΡ€ΠΊ основной Ρ€Π΅ΠΏΡ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ сдСлали сами Ρ€Π°Π·Ρ€Π°Π±Ρ‹ vLLM) для ускорСния инфСрСнса LLM ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. Π£ Π½Π΅Π³ΠΎ Π² трСбованиях CUDA 12+ ΠΈ Torch 2.4.0, ΠΏΡ€ΠΈ этом ΠΆΠ΅ vLLM Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ Torch 2.5.1. Π£ΠΆΠ΅ ΠΏΠΎΠΏΠ°Ρ…ΠΈΠ²Π°Π΅Ρ‚ шизой. ...

December 18, 2024 Β· 4 min Β· ΠΠ»Π΅ΠΊΡΠ΅ΠΉ Π€Π°Ρ‚Π΅Π΅Π²

Π Π°Π·Π²Π΅Ρ€Ρ‚Ρ‹Π²Π°Π½ΠΈΠ΅ LLM с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ TorchServe + vLLM | PyTorch

ΠžΡ€ΠΈΠ³ΠΈΠ½Π°Π»ΡŒΠ½Π°Ρ ΡΡ‚Π°Ρ‚ΡŒΡ: October 2024 ΠŸΠ΅Ρ€Π΅Π²ΠΎΠ΄: November 2024 Авторы: ΠœΠ°Ρ‚Ρ‚ΠΈΠ°Ρ РСсо, Анкит Π“ΡƒΠ½Π°ΠΏΠ°Π», Π‘Π°ΠΉΠΌΠΎΠ½ Мо, Π›ΠΈ Нин, Π₯Π°ΠΌΠΈΠ΄ Π¨ΠΎΠ΄ΠΆΠ°Π½Π°Π·Π΅Ρ€ΠΈ Π”Π²ΠΈΠΆΠΎΠΊ vLLM Π² настоящСС врСмя являСтся ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· самых эффСктивных способов запуска Π±ΠΎΠ»ΡŒΡˆΠΈΡ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ (LLM). Он прСдоставляСт ΠΊΠΎΠΌΠ°Π½Π΄Ρƒ vllm serve ΠΊΠ°ΠΊ простой Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ развСртывания ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° ΠΎΠ΄Π½ΠΎΠΉ машинС. Π₯отя это ΠΈ ΡƒΠ΄ΠΎΠ±Π½ΠΎ, для обслуТивания этих LLM Π² производствСнной срСдС ΠΈ ΠΏΡ€ΠΈ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½Π½Ρ‹Π΅ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ. TorchServe ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ эти Π²Π°ΠΆΠ½Ρ‹Π΅ производствСнныС Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ (Ρ‚Π°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΡΠΊΠΈΠ΅ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ ΠΈ вСрсионированиС ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ), ΠΈ благодаря Π³ΠΈΠ±ΠΊΠΎΠΌΡƒ Π΄ΠΈΠ·Π°ΠΉΠ½Ρƒ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΡΠΊΠΈΡ… ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΎΠ² Π΄Π΅Π»Π°Π΅Ρ‚ ΠΎΡ‡Π΅Π½ΡŒ простой ΠΈΠ½Ρ‚Π΅Π³Ρ€Π°Ρ†ΠΈΡŽ Ρ‚Π°ΠΊΠΈΡ… Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΉ, ΠΊΠ°ΠΊ гСнСрация с Π΄ΠΎΠΏΠΎΠ»Π½Π΅Π½Π½Ρ‹ΠΌ поиском (RAG) ΠΈΠ»ΠΈ Π·Π°Ρ‰ΠΈΡ‚Π½Ρ‹Π΅ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΡ‹, ΠΏΠΎΠ΄ΠΎΠ±Π½Ρ‹Π΅ Llama Guard. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ СстСствСнно ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΠΈΡ‚ΡŒ Π΄Π²ΠΈΠΆΠΎΠΊ vLLM с TorchServe для создания ΠΏΠΎΠ»Π½ΠΎΡ„ΡƒΠ½ΠΊΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠ³ΠΎ производствСнного Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΏΠΎ ΠΎΠ±ΡΠ»ΡƒΠΆΠΈΠ²Π°Π½ΠΈΡŽ LLM. ...

November 14, 2024 Β· 9 min

ΠŸΡ€ΠΎΠ΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ кластСров Kubernetes β€” Π²Ρ‹Π±ΠΎΡ€ Ρ€Π°Π·ΠΌΠ΅Ρ€Π° Ρ€Π°Π±ΠΎΡ‡ΠΈΡ… ΡƒΠ·Π»ΠΎΠ²

ΠžΡ€ΠΈΠ³ΠΈΠ½Π°Π»ΡŒΠ½Π°Ρ ΡΡ‚Π°Ρ‚ΡŒΡ: August 2023 ΠŸΠ΅Ρ€Π΅Π²ΠΎΠ΄: November 2024 TL;DR: Π§Ρ‚ΠΎ Π»ΡƒΡ‡ΡˆΠ΅ - кластСр Kubernetes с мСньшим количСством ΠΊΡ€ΡƒΠΏΠ½Ρ‹Ρ… ΡƒΠ·Π»ΠΎΠ² ΠΈΠ»ΠΈ мноТСством ΠΌΠ΅Π»ΠΊΠΈΡ…? Π’ этой ΡΡ‚Π°Ρ‚ΡŒΠ΅ Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°ΡŽΡ‚ΡΡ ΠΏΠ»ΡŽΡΡ‹ ΠΈ минусы ΠΎΠ±ΠΎΠΈΡ… ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠ². Когда Π²Ρ‹ создаСтС кластСр Kubernetes, ΠΎΠ΄ΠΈΠ½ ΠΈΠ· ΠΏΠ΅Ρ€Π²Ρ‹Ρ… вопросов ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ: β€œΠšΠ°ΠΊΠΎΠΉ Ρ‚ΠΈΠΏ Ρ€Π°Π±ΠΎΡ‡ΠΈΡ… ΡƒΠ·Π»ΠΎΠ² слСдуСт ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΈ сколько ΠΈΡ… Π½ΡƒΠΆΠ½ΠΎ?” Если Π²Ρ‹ создаСтС Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΉ кластСр, стоит Π»ΠΈ Π·Π°ΠΊΠ°Π·Ρ‹Π²Π°Ρ‚ΡŒ нСсколько ΠΌΠΎΡ‰Π½Ρ‹Ρ… сСрвСров послСднСго поколСния ΠΈΠ»ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ дСсяток старых машин, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π΅ΡΡ‚ΡŒ Π² вашСм Π΄Π°Ρ‚Π°-Ρ†Π΅Π½Ρ‚Ρ€Π΅? ...

November 13, 2024 Β· 17 min