Розроблення та дослідження інтелектуальної системи перетворення візуального контенту у музичний супровід

Автор: Воробець Світлана Ігорівна
Кваліфікаційний рівень: магістр
Спеціальність: Системне проєктування
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2025-2026 н.р.
Мова захисту: українська
Анотація: Воробець С.І., Корпильов Д.В. (керівник). Розроблення та дослідження інтелектуальної системи перетворення візуального контенту у музичний супровід. Магістерська кваліфікаційна робота. – Національний університет “Львівська політехніка”, Львів, 2025. Розширена анотація. Магістерська робота присвячена розробленню та досліджені інтелектуальної системи перетворення візуального контенту у музичний супровід, яка дозволяє користувачу створювати музичні композиції незалежно від рівня знань, досвіду та зусиль. Теоретичною основою дослідження стала концепція соніфікації – практики перетворення даних у звукові сигнали. [1, 2, 3] Соніфікація знаходить застосування у різних галузях науки, від сейсмології до астрономії, дозволяючи дослідникам “слухати” дані замість їх візуалізації. Зокрема, NASA активно використовує соніфікацію для перетворення астрономічних даних у звук, що робить наукову інформацію доступною для людей з вадами зору. [1, 3] Ключовим методом соніфікації є параметричне відображення (parameter mapping), коли характеристики даних співставляються з музичними параметрами, такими як висота тону, гучність, тривалість та темп. Математичні основи музики також відіграють важливу роль у розробленій системі. [4, 5] Музична теорія тісно пов’язана з математикою через ритмічні структури, гармонійні співвідношення та частотні характеристики. Розуміння цих залежностей дозволило створити детерміністичний алгоритм генерації музики, що базується на математичних закономірностях побудови акордових прогресій та тональностей. У роботі описано застосування алгоритмів для генерації акордових прогресій, що також було враховано при розробці системи. [6] Розвиток штучного інтелекту та його застосування у музичній індустрії відкрив нові можливості для автоматизації творчого процесу. [7] Рекурентні нейронні мережі, зокрема архітектура LSTM (Long Short-Term Memory), виявилися особливо ефективними для генерації музики через їх здатність запам’ятовувати довгострокові залежності в послідовностях даних. [8, 9] LSTM-мережі використовують систему воріт (gates) для контролю інформаційного потоку: ворота забування, введення та виведення дозволяють мережі вибірково зберігати, оновлювати та відкидати інформацію, що критично важливо для моделювання музичних структур з їх складними залежностями. Для розробки системи необхідно виконати характеристику об’єкту, огляд літератуних джерел та систем-аналогів та системний аналіз, де побудовано дерево проблем, дерево цілей та аналіз методів розв’язання задачі. Особлива увага має бути приділена порівнянню різних архітектур нейронних мереж для музичної генерації. Наступним етапом є опис постановки задачі, архітектури системи, алгоритму генерації музики детерміністичним способом, алгоритму генерації із використанням нейронних мереж, підготовки даних для моделі та навчання нейронної мережі. Детерміністичний підхід базується на аналізі візуального контенту та перетворенні його характеристик (кольорових схем, яскравості, контрастності) у музичні параметри відповідно до встановлених правил та музичної теорії. Алгоритм на основі LSTM передбачає навчання мережі на основі музичних творів у форматі MIDI та візуальних характеристик відео, що дозволяє генерувати більш складні та природні музичні структури. Також були додані діаграми, які описують систему, а саме IDE0F діаграму, діаграма прецедентів користувача, діаграму послідовностей та схему бази даних. Крім того, має бути представлена загальна структура програмного забезпечення, описаний список використанних бібліотек, доданий опис розроблених програмних модулів та інтерфейсу користувача. Система реалізована у вигляді веб-застосунку, що забезпечує кросплатформність та легкість доступу. Використано сучасні бібліотеки для обробки відео, аналізу зображень, роботи з MIDI-файлами та побудови нейронних мереж. Інтерфейс користувача розроблено з урахуванням принципів юзабіліті, що дозволяє навіть непрофесійним користувачам створювати музичні композиції за кілька кліків. На додачу, мають бути описані проблеми, які виникли під час розробки, зокрема синхронізація музики з візуальним контентом, вирішення монотоності мелодії та правильний розрахунок тривалості ноти, способи їх вирішення та аналіз результатів. Об’єктом дослідження є процес автоматичної генерації музичних композицій на основі аналізу візуальних характеристик відеоконтенту. Предметом дослідження є методи та алгоритми перетворення візуальних ознак відео у музичні параметри з використанням детерміністичних правил та LSTM. Метою роботи є розробка інтелектуальної системи автоматичної генерації музичних композицій на основі аналізу візуальних характеристик відеоконтенту з використанням методів комп’ютерного зору та навчання нейронної мережі, що забезпечує створення музичного супроводу, який відповідає емоційному та динамічному змісту відео. У результаті були згенеровані музичні композиції, які відповідали тематиці та стилю вхідного відеоматеріалу двома режимами: детермінічтисним та з допомогою нейронних мереж. Актуальність роботи. У сучасному цифровому світі візуальний контент став невід’ємною частиною освіти та розваг. Однак створення якісного музичного супроводу для такого контенту залишається складним завданням, що вимагає музичної освіти, досвіду композиції та значних часових ресурсів. Традиційні методи створення музики потребують володіння музичними інструментами та знання теорії музики, що обмежує коло людей, здатних створювати оригінальний саундтрек. З розвитком машинного навчання та комп’ютерного зору з’явилася можливість автоматизувати процес генерації музики на основі аналізу візуальних характеристик відео. Актуальність даної роботи обумовлена зростаючим попитом на персоналізований музичний контент, розвитком технологій штучного інтелекту та необхідністю спрощення процесу створення музичної композиції для широкого кола користувачів. Науково-технічна новизна. Науково-технічна новизна роботи полягає у розробленні гібридного підходу до генерації музики, який поєднує детерміністичний алгоритм на основі теорії музики та нейромережевий метод з використанням LSTM-архітектури. Робота містить: 124 сторінки, 43 зображення, 3 додатки та 24 літературні джерела. Ключові слова: LSTM, детерміністичний режим, генерація музичної композиції, аналіз відеоматеріалу, MIDI, веб-застосунок, нотний запис, акордова прогресія, тональність. Перелік використаних літературних джерел: Sonification: Listening to the Haunting Sounds of the Universe [Електронний ресурс]. – Режим доступу до ресурсу: https://science.howstuffworks.com/sonification.htm#pt1 DATA SONIFICATION Methods [Електронний ресурс]. – Режим доступу до ресурсу: https://www.sonificationkit.com/data-sonification/methods Listen to the universe: How sonification turns data into sound [Електронний ресурс]. – Режим доступу до ресурсу: https://www.astronomy.com/science/how-sonification-turns-data-into-sound/ The Mathematics of Music: Understanding Rhythms, Harmonies, and Frequencies [Електронний ресурс]. – Режим доступу до ресурсу: https://tothenetwork.com/the-mathematics-of-music-understanding-rhythms-harmonies-and-frequencies/ Maths in Music: Discover How Awesome Numbers and Patterns Shape Tunes [Електронний ресурс]. – Режим доступу до ресурсу: https://learningmole.com/maths-in-music-composing-with-numbers/ Griffin Going and Dr. Erik Fredericks. "Muse: A Genetic Algorithm for Musical Chord Progression Generation." Grand Valley State University, 2024. [Електронний ресурс]. – Режим доступу до ресурсу: https://scholarworks.gvsu.edu/gradprojects/240 The Evolution of Music and AI Technology [Електронний ресурс]. – Режим доступу до ресурсу: https://watt-ai.github.io/blog/music_ai_evolution Understanding LSTM Networks [Електронний ресурс]. – Режим доступу до ресурсу: https://colah.github.io/posts/2015-08-Understanding-LSTMs/ Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. 1997. Vol. 9, No. 8. P. 1735-1780.