Модель та засоби перекладу і семантичного пошуку фразеологізмів з використанням штучних нейронних мереж

Автор: Милимук Оксана Олегівна
Кваліфікаційний рівень: магістр
Спеціальність: Інформаційні управляючі системи та технології
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2025-2026 н.р.
Мова захисту: англійська
Анотація: Актуальність. Обробка фразеологізмів становить суттєвий виклик для сучасних NLP-систем. Машинні перекладачі часто відтворюють такі вирази дослівно, що є некоректним, оскільки фразеологізми належать до некомпозиційних одиниць і їхній зміст не збігається з буквальним значенням складових слів. Додаткову складність створює варіативність форм, яка ускладнює їх розпізнавання у звичайних словникових системах. Тому актуальним стає застосування моделей, здатних поєднувати вдосконалений лексичний пошук для роботи з різними формами виразу та семантичного пошуку, який дозволяє ідентифікувати фразеологізм за змістом і встановлювати перекладні еквіваленти на основі семантичної близькості. Особливо важливим це є для української мови, яка все ще недостатньо забезпечена сучасними лінгвістичними ресурсами та моделями. Об’єкт дослідження – процес перекладу та семантичного пошуку фразеологізмів у багатомовних мовних системах. Предмет дослідження – модель та програмні засоби семантичного пошуку та визначення перекладних еквівалентів фразеологізмів із використанням сучасних нейронних мереж. Мета дослідження – розробити модель і програмні засоби, що забезпечують семантичний пошук фразеологізмів, їх ідентифікацію за неточними та варіативними формами, а також визначення перекладних еквівалентів на основі сучасних нейронних мереж. Структура роботи. Дана магістерська робота складається зі вступу, чотирьох розділів, висновків, списку використаних джерел та додатків. У першому розділі проаналізовано предметну область, описано специфіку фразеологізмів, сучасні підходи до їх опрацювання та сформульовано вимоги до системи. Другий розділ присвячено вибору методів і моделей, обґрунтуванню архітектури та опису математичного й алгоритмічного забезпечення. У третьому розділі подано структурну та програмну реалізацію системи. У четвертому розділі наведено результати експериментальних досліджень та оцінено ефективність роботи розробленої моделі. Методи та інструменти дослідження. У роботі використано методи лексичного аналізу, зокрема fuzzy- та lemma-пошук для обробки варіативних форм і неточних запитів. Семантичне зіставлення фразеологізмів виконано на основі трансформерних моделей типу Bi-Encoder і Cross-Encoder, реалізованих на базі бібліотеки Sentence-Transformers, що забезпечують побудову векторних подань та оцінку їх семантичної подібності; моделі додатково натреновано на спеціально сформованих прикладах. Серверну частину реалізовано у Flask (Python), а вебінтерфейс – із використанням HTML, CSS (Tailwind/Flowbite) і JavaScript. Для опрацювання текстових даних і векторних представлень застосовано допоміжні бібліотеки Python. Дані підготовлено на основі українських і англійських фразеологічних джерел та власноруч сформованих датасетів. Результати та практичне значення. Розроблено систему IdiomFinder, що забезпечує лексичний пошук фразеологізмів за неточними чи варіативними формами, пошук семантично близьких конструкцій, а також встановлення міжмовних перекладних еквівалентів. Експериментальні дослідження підтвердили ефективність застосованих методів. Отримані результати можуть бути використані у системах перекладу, електронних словниках, навчальних платформах і прикладних NLP-сервісах. Повний обсяг роботи складає 132 сторінок, в тому числі 111 сторінка основного тексту, 20 рисунків і 6 таблиць. Список використаних джерел налічує 47 найменувань. Ключові слова: фразеологізм, семантичний пошук, перекладний еквівалент, нейронні мережі, трансформерні моделі, обробка природної мови.