Розроблення програмного модуля для виявлення ШІ в україномовних текстах

Автор: Тищенко Наталія Анатоліївна
Кваліфікаційний рівень: магістр
Спеціальність: Системне проєктування
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2025-2026 н.р.
Мова захисту: українська
Анотація: Тищенко Н.А., Лобур М.В. (керівник). Розроблення програмного модуля для виявлення ШІ в україномовних текстах. Магістерська кваліфікаційна робота. – Національний університет «Львівська політехніка», Львів, 2025. Розширена анотація. Останні роки характеризуються стрімким розвитком великих мовних моделей (LLM), здатних генерувати тексти, практично невідмінні від написаних людиною [1]. Це призвело до зростання потреби у системах автоматичного виявлення ШІ- згенерованого контенту, які можуть застосовуватися в освіті, журналістиці, кібербезпеці та інших сферах. Збільшення обсягів синтетичного тексту створює ризики дезінформації, маніпуляцій і порушення академічної доброчесності, що обумовлює актуальність даного дослідження. Метою даної магістерської роботи є розроблення інтелектуальної системи класифікації, здатної визначати ступінь впливу штучного інтелекту на текст та розрізняти людські, змішані й повністю згенеровані ШІ матеріали. У роботі розглянуто теоретичні основи Natural Language Processing, принципи роботи трансформерних моделей, методи збору корпусів даних та сучасні підходи до аугментації текстових даних. Особливу увагу приділено аналізу обмежень наявних детекторів ШІ-тексту (ZeroGPT, GPTZero, Turnitin) та специфіці україномовних текстів, що ускладнює їх класифікацію [4][5]. У межах дослідження сформовано та опрацьовано корпус текстів, застосовано методи текстової аугментації (заміна синонімів, зворотний переклад, вставлення і перестановка слів) для розширення навчальних даних [2][3]. Виконано токенізацію та побудовано ансамблеву модель класифікації. Розроблено архітектуру веб-сервісу з використанням Python (FastAPI) та інтерактивний клієнтський інтерфейс, що забезпечує повний цикл обробки тексту – від попередньої обробки до формування результатів класифікації. Експериментальні дослідження підтвердили здатність створеної моделі коректно класифікувати різні типи текстів: повністю людські, повністю ШІ-згенеровані, короткі, змішані та відредаговані. Класифікатор продемонстрував високу стабільність визначення типу тексту за рахунок структурованої аугментації даних та оптимізації моделі. Розроблена система є ефективним інструментом для аналізу текстового контенту, що поєднує сучасні методи NLP, машинного навчання та веб- розробки. Її можна використовувати в освітніх установах, корпоративному секторі та медіа-індустрії для моніторингу автентичності текстів і підвищення інформаційної безпеки. Об’єкт дослідження: текстові матеріали різного походження та процеси їх автоматизованої класифікації. Предмет дослідження: методи і засоби виявлення штучно згенерованого текстового контенту на прикладі українськомовних текстів. Мета дослідження: створити інтелектуальну інформаційну систему для автоматизованого моніторингу та класифікації текстів за ознаками штучної генерації. Результати дослідження: створено програмний модуль для автоматизованого визначення ШІ-згенерованих текстів, що поєднує сучасні методи NLP, машинного навчання та веб-технології; експериментально підтверджено його ефективність, високу точність і стабільність класифікації текстів різних типів, що підтверджує повне досягнення мети роботи. Ключові слова: NLP, LLM, класифікація тексту, аугментація даних, детекція ШІ, машинне навчання. Список використаних джерел: 1. CAD in machinery design. Implementation and educational issues. XXIX International Polish-Ukrainian conference : колективна монографія. – Krakow: Wydawnictwa AGH, 2023. Holovatyy A. Development of microcontroller-based temperature and humidity data logger / A. Holovatyy, R. Panchak, M. Lobur. – c.77– 84. 2. Wei, J., & Zou, K. (2019). EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks. In EMNLP Workshop 2019 (pp. 638– 644). 3. Kobayashi, S. (2018). Contextual Augmentation: Data Augmentation by Words with Contextual Embeddings. In NAACL 2018 (pp. 452–457). 4. Nur, R. (2023). AI text detectors and false positives [Блог]. Medium. https://medium.com/@rizqinur2010/ai-text-detectors-and-false-positives- 0dd436048c56 5. HumanizerAI. (2025). Is Turnitin AI detection accurate in 2025? Reliability explained [Онлайн-стаття]. Humanizer Blog. https://humanizerai.com/blog/is- turnitin-ai-detection-accurate-in-2025-reliability-explained