Смарт система семантичного пошуку текстових даних
Автор: Кок Петро Андрійович
Кваліфікаційний рівень: магістр
Спеціальність: Інформаційні управляючі системи та технології
Інститут: Інститут комп'ютерних наук та інформаційних технологій
Форма навчання: денна
Навчальний рік: 2025-2026 н.р.
Мова захисту: українська
Анотація: Актуальність. Стрімке зростання обсягів текстових даних у корпоративних, наукових та освітніх системах робить пошук за ключовими словами недостатнім: він погано враховує синонімію, контекст, довгі документи й багатомовність. Векторні подання тексту та RAG-архітектури дають змогу шукати інформацію за змістом, але їх впровадження потребує вирішення практичних задач – коректного поділу текстів на фрагменти, вибору embedding-моделей, побудови індексу та забезпечення прийнятної затримки відповіді в інтерактивному чат-інтерфейсі [2, 20, 28]. Це зумовлює актуальність розроблення смарт-системи семантичного пошуку, орієнтованої на роботу з багатомовними документами користувача. Об’єкт дослідження – семантичний пошук текстових даних в інформаційному середовищі. Предмет дослідження – методи і засоби реалізації інтерактивних RAG- систем [2] для аналізу, об’єднання та відтворення текстової інформації у контекстно-залежному форматі, що дасть змогу ефективно здійснювати семантичний пошук текстових даних в інформаційному середовищі. Мета дослідження – розробити прототип смарт-системи семантичного пошуку текстових даних на підставі RAG-архітектури, яка забезпечить інтерактивну взаємодію користувача з власними файлами через чат-інтерфейс, дає можливість формувати узагальнені відповіді на його запити, виконувати пошук інформації за її змістом у межах одного чи кількох документів і генерувати нові тексти з урахуванням отриманих даних. Методи та інструменти дослідження. Використано методи семантичного аналізу текстів, векторизації та dense-retrieval із гібридним ранжуванням результатів з урахуванням структурних метаданих і контексту запиту [1, 10, 14]. Якість пошуку оцінювалася за метриками Recall@k, Mean Reciprocal Rank (MRR) та Normalized Discounted Cumulative Gain (nDCG). Програмну реалізацію здійснено з використанням LangChain і LangGraph (оркестрація запитів), Pinecone (векторний індекс), PostgreSQL (метадані й історія діалогів), Redis (кешування), LangSmith (моніторинг), а також стеку React + NestJS для клієнт-серверної чат-платформи [8, 20, 28, 29]. Результати та практичне значення. Створено прототип смарт- системи, що підтримує завантаження багатомовних документів, їх автоматичний поділ на фрагменти, векторизацію, індексацію в Pinecone та семантичний пошук релевантних фрагментів [14, 29]. Запропоновано гібридну схему пошуку, яка поєднує первинний dense-retrieval із повторним ранжуванням, що підвищує релевантність результатів порівняно з традиційними алгоритмами на кшталт BM25 [1]. Забезпечено інтерактивну роботу через чат-інтерфейс із можливістю посилання на джерельні фрагменти, узагальнення інформації з кількох документів і генерування нових текстів на основі бази знань. Отримані результати можуть бути використані під час інтеграції подібних систем у корпоративні бази знань, освітні платформи, цифрові бібліотеки та системи підтримки прийняття рішень. Структура роботи. Магістерська робота складається зі вступу, чотирьох розділів, висновків, списку використаних джерел та додатків; розділи присвячені огляду підходів до семантичного пошуку, побудові концептуальної моделі системи, програмній реалізації та експериментальній оцінці якості й продуктивності. Загальний обсяг роботи – 126 сторінка, з них 76 сторінок основного тексту, 13 рисунків і 0 таблиць. Список джерел містить 30 найменувань. Ключові слова: векторизація тексту; векторні ембединги; RAG- архітектура; векторний індекс; гібридна модель пошуку; ранжування.