Методи та засоби контекстної перевірки структурованих документів із використанням штучного інтелекту
Автор: Пелих Павло Петрович
Кваліфікаційний рівень: магістр
Спеціальність: Інформаційні управляючі системи та технології
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2025-2026 н.р.
Мова захисту: англійська
Анотація: Актуальність. В умовах цифровізації освіти та зростання вимог до якості академічних текстів, проблема автоматизації нормоконтролю стає критичною. Існуючі засоби перевірки (Grammarly, вбудовані функції Word) зосереджуються переважно на граматиці, ігноруючи складну ієрархічну структуру документів та специфічні вимоги стандартів (ДСТУ). Розроблення гібридної системи, що поєднує детерміновану перевірку структури з інтелектуальним аналізом змісту, забезпечує інструмент для підвищення якості кваліфікаційних робіт та дотримання академічної доброчесності. Об’єкт дослідження – процес автоматизованої перевірки та редагування структурованих документів освітнього та організаційного характеру у форматі DOCX. Предмет дослідження – методи формальної перевірки на основі правил та контекстної (семантичної й стилістичної) валідації структурованих документів із використанням великих мовних моделей. Мета дослідження – створення інтелектуальної двошарової системи валідації, яка інтегрує контроль структури DOCX на основі правил із глибинним семантико-стилістичним аналізом для автоматизованого виявлення технічних та логічних невідповідностей. Методи та інструменти дослідження. Для структурного аналізу та парсингу документів використано бібліотеку python-docx та методи опрацювання XML-структур Office Open XML. Для семантичного аналізу застосовано методи опрацювання природної мови (NLP) та інтеграцію з великими мовними моделями (OpenAI API/LLaMA) через методи інженерії підказок (Prompt Engineering). Програмна реалізація виконана з використанням мови Python, фреймворку FastAPI для бекенду та бібліотеки React для клієнтського інтерфейсу (Word Add-in). Результати та практичне значення. Розроблено та програмно реалізовано систему гібридної валідації документів, яка забезпечує точність виявлення структурних помилок на рівні 87.5% (Pass Rate) та ефективно виконує семантичний розбір неструктурованого тексту. Впроваджено механізм генерації інтерактивних звітів, що дає змогу користувачам (студентам, викладачам) швидко адаптувати роботи до вимог нормоконтролю. Запропонований підхід дає змогу суттєво скоротити час на технічну перевірку та мінімізувати вплив людського фактору. Загальний обсяг цього дослідження становить 120 сторінок, включаючи 103 сторінок тексту, 24 рисунка, 4 таблиці, список літератури з 33 найменувань. Ключові слова: автоматизована перевірка, нормоконтроль, DOCX, NLP, великі мовні моделі (LLM), гібридна архітектура, семантичний аналіз, FastAPI, академічне письмо.