Інтелектуальна система сегментації текстових документів на основі графових нейронних мереж
Автор: Никипанчук Денис Васильович
Кваліфікаційний рівень: магістр
Спеціальність: Інформаційні управляючі системи та технології
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2025-2026 н.р.
Мова захисту: українська
Анотація: Актуальність. Масове накопичення великих масивів внутрішньої неструктурованої текстової документації призводить до інформаційного шуму та втрати цінних знань підприємств. Традиційний пошук не бачить сенсу за словами тому схожі документи, готові рішення та цінний досвід залишаються прихованими. Об’єкт дослідження це процес пошуку та аналізу інформації в великих масивах неструктурованої внутрішньої текстової документації організацій. Предмет дослідження – моделі та програмні засоби автоматичного виявлення семантичної схожості документів на основі методів глибинного навчання, обробки природної мови й векторного представлення тексту. Мета дослідження є створення інтелектуальної системи сегментації текстових документів на основі графових нейронних мереж, що дозволяє ефективно знаходити найбільш релевантну інформацію серед наявної бази прецедентів. Методи та інструменти дослідження – графові нейронні мережі та RAG, FAISS для швидкого пошуку схожих фрагментів, FastAPI та React для реалізації інтерфейсу, PostgreSQL для зберігання метаданих, що реалізовано з використанням Python і TensorFlow. Результати та практичне значення. Розроблено інтелектуальну систему сегментації текстових документів на основі графових нейронних мереж. Побудовано архітектуру програмного продукту та реалізовано прототип системи з використанням стеку Python, FastAPI, PostgreSQL, FAISS та React. Створено повний пайплайн обробки завантаження й зберігання документів, їх автоматична сегментація на логічні фрагменти, формування векторних подань, побудова графової моделі зв’язків і класифікація релевантності фрагментів GNN класифікатором. Експериментально підтверджено ефективність запропонованого підходу для задач семантичного пошуку технічних прецедентів, що забезпечує високу точність і стабільність результатів. Отримані результати можуть бути використані для побудови внутрішніх систем підтримки прийняття технічних рішень в організаціях, які працюють з великою кількістю технічних документів, а також як основа для розвитку корпоративних баз знань та інструментів інженерного пошуку рішень. Дана магістерська робота складається зі вступу, чотирьох розділів, висновків, списку використаних джерел та додатків. У першому розділі описано аналіз предметної області. Другий розділ присвячено проектуванню системи та вибору технологічних рішень. У третьому розділі описано процес розробки програмного продукту. Експериментальна частина роботи наведена у четвертому розділі, де представлено результати автоматизованого та ручного тестування, аналіз якості навчання нейронної мережі та метрики. Загальний обсяг роботи становить 98 сторінки, в тому числі 86 сторінка основного тексту, містить 35 рисунків, список використаних джерел налічує 33 найменування. Ключові слова: інтелектуальна сегментація текстових документів; графові нейронні мережі; семантичний пошук прецедентів; Retrieval-Augmented Generation; резюмування тексту; векторні коди тексту; системи підтримки прийняття технічних рішень.