Модель та засоби перетворення інфрачервоних зображень у видиме представлення з використанням глибинного навчання

Автор: Коваль Павло Андрійович
Кваліфікаційний рівень: магістр
Спеціальність: Інформаційні управляючі системи та технології
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2025-2026 н.р.
Мова захисту: англійська
Анотація: Актуальність. Теплові LWIR-камери забезпечують спостереження в умовах низької видимості, однак їхні зображення важко інтерпретувати оператором і безпосередньо інтегрувати в існуючі алгоритми комп’ютерного зору, орієнтовані на RGB-дані. Перетворення теплових зображень у видимі представлення засобами глибинного навчання дає змогу поєднати переваги обох доменів: зберегти термальну інформацію й одночасно забезпечити сумісність із наявними візуальними системами підтримки прийняття рішень. Об’єкт дослідження – процес комп’ютерної обробки теплових LWIR- зображень у системах технічного зору. Предмет дослідження – моделі та програмні засоби перетворення LWIR-зображень у видимі RGB-представлення на основі методів глибинного навчання. Мета дослідження – розроблення моделі та програмного конвеєра перетворення теплових LWIR-зображень у видимі представлення з використанням сучасних архітектур глибинного навчання та оцінювання їхньої якості на реальному датасеті. Структура роботи. Дана магістерська робота складається зі вступу, чотирьох розділів, висновків, списку використаних джерел та додатків. У першому розділі обґрунтовано актуальність, проаналізовано предметну область, сформульовано системні та технічні вимоги до системи. Другий розділ присвячено постановці задачі, вибору архітектури, формалізації функцій втрат і критеріям оцінювання, а також опису математичної моделі та загального алгоритмічного конвеєра. У третьому розділі розроблено й описано програмне рішення на базі Python та PyTorch: структуру даних, модулі попередньої обробки, навчання, інференсу й механізми забезпечення надійності. Експериментальна частина наведена у четвертому розділі, де представлено формування тензорного датасета KAIST, результати навчання базового U-Net і моделі pix2pix, їхнє порівняння за метриками L1/SSIM та візуальною оцінкою. Методи та інструменти дослідження. У роботі використано методи обробки зображень, згорткові нейронні мережі (U-Net, умовна GAN pix2pix з Patch-дискримінатором), функції втрат L1 і SSIM. Програмну реалізацію здійснено засобами Python і фреймворку PyTorch у середовищі Google Colab із використанням GPU. Як базовий набір даних застосовано датасет KAIST. Результати та практичне значення. Розроблено концептуальну та математичну модель перетворення LWIR-RGB, спроєктовано й реалізовано модульний програмний конвеєр попередньої обробки, навчання й інференсу. Експериментально показано, що базова модель U-Net із комбінованою реконструктивно-структурною функцією втрат забезпечує високу структурну подібність та низьку піксельну похибку на парних даних KAIST, тоді як змагальний підхід pix2pix дає більш різкі локальні деталі, але поступається за стандартними метриками і схильніший до локальних галюцинацій. Повний обсяг роботи становить 127 сторінок, в тому числі 108 сторінок основного тексту, містить 16 рисунків, 2 таблиці. Список використаних джерел налічує 30 найменувань. Ключові слова: теплові зображення, LWIR, глибинне навчання, перетворення зображень, U-Net, GAN, PyTorch.