Проєктування масштабованої хмарної платформи прискореного навчання та інференсу моделей машинного навчання

Автор: Чорний Маркіян-Яків Степанович
Кваліфікаційний рівень: магістр
Спеціальність: Системне проєктування
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2025-2026 н.р.
Мова захисту: українська
Анотація: Чорний М.С., Оборська О.В. (керівник). Проектування масштабованої хмарної платформи для прискореного інференсу та навчання моделей машинного навчання. Магістерська кваліфікаційна робота. – Національний університет «Львівська Політехніка», Львів, 2025. Розширена анотація. Магістерська кваліфікаційна робота присвячена дослідженню, проєктуванню та реалізації масштабованої хмарної платформи для навчання та інференсу моделей машинного навчання, яка побудована за принципом master–worker. Потреба в таких системах зумовлена стрімким зростанням складності моделей штучного інтелекту, підвищенням вимог до обчислювальних ресурсів та необхідністю оптимізувати витрати на GPU-обчислення для малого й середнього бізнесу, дослідницьких груп та приватних розробників. Однією з ключових проблем сучасних обчислювальних платформ є те, що моделі різних класів (мовні моделі на основі трансформерів, дифузійні генератори зображень, моделі комп’ютерного зору, рекурентні та конволюційні мережі) вимагають різних ресурсів, утилізують GPU по-різному та мають суттєві відмінності за обсягами VRAM, часом прогріву, обсягами завантаження та залежностями бібліотек [1]. Тому в роботі запропоновано універсальний підхід до інференсу - worker-вузли, які здатні виконувати запити незалежно від класу моделі завдяки модульній системі інтегрованій у стандартизоване API. У роботі проведено системний аналіз існуючих архітектур розподілених обчислювальних платформ [2], і на основі цього обґрунтовано необхідність створення легкої, адаптивної системи, яка може розгортатися як на локальному сервері, так і в хмарі. Основною відмінністю запропонованої системи є можливість автоматичного підключення орендованих GPU-інстансів через API платформ Vast.ai, що забезпечує динамічне масштабування при пікових навантаженнях без потреби перевищувати локальні потужності. Керуючий вузол виконує функції координатора, який веде реєстр моделей, відстежує стан робочих вузлів, виконує балансування навантаження та вибирає оптимальний вузол для кожного запиту. Робота містить опис алгоритму вибору воркера за критеріями мінімального завантаження, доступної VRAM, класу GPU, регіону розташування, а у спрощеній базовій реалізації — за найнижчою вартістю GPU-оренди при відповідності заданим технічним вимогам. Реалізовано механізм heartbeat, який передає телеметрію про температуру GPU, використання VRAM, час останнього успішного запиту, середню латентність та стан моделі. Розроблений inference-worker підтримує універсальність щодо моделей і реалізує кілька важливих інновацій. По-перше, забезпечено можливість динамічного встановлення Python-залежностей, що дозволяє уникнути надмірних Docker-образів і робить робочий вузол адаптивним до різних типів моделей. По-друге, створено систему кешування завантажених бібліотек, що зменшує час холодного старту та виключає конфлікти версій між бібліотеками. По-третє, у роботі реалізовано механізм warm-up моделі, що дозволяє оцінити реальні витрати відеопам’яті та запобігти аварійному завершенню при недостатній VRAM, з чим часто стикаються реальні системи. Експериментальна частина роботи включає серію тестувань продуктивності. Перший тест інференс моделі Stable Diffusion 3.5 на одному робочому вузлі класу RTX 3060. Отримані значення продемонстрували значний холодний старт (понад 10 секунд) через завантаження модулів і прогрів моделі, а також поступове зменшення часу запиту при послідовному виконанні одночасних викликів. У другому тесті використовувалися два worker-вузли, між якими master виконував балансування. Отримані дані вказали на зменшення середнього часу виконання запиту на 35–45%, а також рівномірний розподіл навантаження між вузлами. Окрему увагу приділено питанням безпеки: ізоляція контейнерів, контроль доступу через токени, шифрування конфігураційних даних, валідація введення та мінімізація ризиків при завантаженні моделей з відкритих джерел. Запропоновано низку рекомендацій щодо безпечного розгортання платформи у виробничих середовищах. Практична цінність роботи полягає у створенні повністю функціонального прототипу платформи, який може використовуватися як основа для систем з циклом роботи машинного навчання, навчання LoRA-моделей, генерації зображень, тексту, відео у великих масштабах, організації приватних інференс-серверів та оптимізації інфраструктури у малих компаніях. Результати роботи мають перспективи подальшого розвитку, зокрема впровадження розподіленого навчання, підтримки кластерів GPU, інтеграції з Kubernetes та автоматичного прогнозування навантаження. Об’єкт дослідження - процес розподіленого виконання обчислювальних задач інференсу та навчання моделей машинного навчання в хмарних і локальних обчислювальних середовищах. Предмет дослідження - архітектурні рішення, алгоритми й технічні засоби побудови масштабованої master–worker платформи для роботи з моделями штучного інтелекту. Мета дослідження - розробити та обґрунтувати архітектуру і програмну реалізацію універсальної платформи, що забезпечує ефективне, гнучке та економічно оптимальне використання GPU-ресурсів для навчання й інференсу моделей машинного навчання. Новизна дослідження полягає в розробці зручного та гнучкого способу використання власного та арендованого серверного обладнання для прискорення роботи з моделями машинного навчання. Ключові слова: штучний інтелект; розподілені обчислення; GPU; інференс; хмарні сервіси; машинне навчання; масштабування. Перелік використаних джерел: Машинне навчання: загальний огляд та застосування для розпізнавання текстових і візуальних об’єктів. С. В. Єрмоленко. 2025. Особливості масштабування контейнерного навантаження на базі системи kubernetes. Олексій Сопов, Анна Цитовцева. 2021.