Виявлення та відстеження об’єктів у відео є важливою задачею сучасних інтелектуальних систем, що застосовується у відеоспостереженні, транспортному моніторингу та системах безпеки. Зі зростанням обсягів відеоданих і необхідністю їх обробки в реальному часі традиційні методи комп’ютерного зору поступаються підходам глибинного навчання, які забезпечують вищу точність та адаптивність до змін умов середовища.
Метою роботи є аналіз сучасних наукових досліджень щодо застосування нейронних мереж для детекції та відстеження об’єктів у відео та факторів, що впливають на точність і ефективність таких систем.
1. YOLO-архітектури для задач реального часу (Chaman et al., 2025)
У дослідженні Chaman et al. (2025) виконано порівняльний аналіз моделей YOLOv8-YOLOv12 для задач детекції дорожніх об’єктів у системах ADAS та інтелектуального транспорту. Автори навчали всі моделі в однакових умовах на уніфікованому датасеті з 42 000 зображень, що дозволило об’єктивно оцінити вплив архітектурних змін на якість і швидкодію.
Результати показали, що зі збільшенням складності архітектури зростає точність детекції. Найкращі показники отримала YOLOv12, яка досягла понад 97% precision та mAP@50-95 понад 82% при збереженні продуктивності, придатної для роботи в реальному часі. Водночас YOLOv10 показала вищу швидкість інференсу, але знижені показники точності.
Покращення результатів автори пов’язують із вдосконаленням обробки ознак та більш ефективною агрегацією багаторівневої інформації в новіших версіях YOLO.
2. Покращення DETR для автономного водіння (Zhang et al., 2024)
У дослідженні Zhang et al. (2024) запропоновано покращену версію DETR для детекції об’єктів у складних дорожніх сценах. Автори впровадили три основні нововведення: метод витягування багатомасштабних ознак та інформації про локалізацію з використанням модуля координатної уваги, трансформерний енкодер на основі групового осьового механізму уваги для зменшення обчислень та динамічне налаштування гіперпараметрів на основі Парето-ефективності для збалансування функцій втрат.
Експерименти показали, що запропонований метод перевершує інші: точність (AP) зросла на 3,3% на датасеті COCO, на 4,5% на PASCAL VOC та на 3% на KITTI. Крім того, швидкість обробки (FPS) збільшилась на 84% порівняно з базовим DETR завдяки ефективнішому енкодеру. Автори зазначають, що їхній метод поступається за швидкодією алгоритмам серії YOLO, але є одним із найшвидших серед DETR-подібних моделей.
3. RT-DETR як гібридний підхід до real-time детекції (Zhao et al., 2024)
У дослідженні Zhao et al. (2024) представлено RT-DETR – перший реальний end-to-end детектор трансформерного типу, здатний працювати в реальному часі. Автори розробили ефективний гібридний енкодер, який розділяє внутрішньомасштабну взаємодію та міжмасштабне злиття ознак для прискорення обробки, а також запропонували метод вибору запитів із мінімальною невизначеністю для підвищення точності.
Результати на COCO val2017: RT-DETR з бекбоном ResNet50 досягає 53,1% AP при 108 FPS на GPU T4, а з ResNet101 – 54,3% AP при 74 FPS. показує вищу точність у порівнянні з окремими YOLO-моделями при збереженні високої швидкості. Порівняно з DINO-Deformable-DETR-R50, RT-DETR покращує точність на 2,2% AP (53,1% проти 50,9%) та прискорює роботу приблизно в 21 раз (108 FPS проти 5 FPS). Додатково RT-DETR підтримує гнучке налаштування швидкості шляхом зміни кількості шарів декодера без повторного навчання.
4. YOLO та RT-DETR у сільському господарстві (Hussain, 2025)
У роботі Hussain (2025) проведено порівняння моделей YOLOv8, YOLOv9, YOLOv10 та RT-DETR для задачі детекції рослин і бур’янів на аграрному датасеті з 5611 зображень. Мета дослідження полягала у визначенні оптимального балансу між точністю та швидкістю для практичного використання в сільському господарстві.
Результати показали, що YOLOv9 забезпечує вищі значення recall та mAP, що дозволяє виявляти більше об’єктів, тоді як RT-DETR демонструє найвищу precision, зменшуючи кількість хибних спрацювань. Легкі версії YOLO забезпечили найкращу швидкість обробки, що важливо для вбудованих систем.
Отримані відмінності автори пояснюють компромісом між складністю моделі та обчислювальними ресурсами: трансформерні підходи краще працюють на точність, тоді як YOLO-моделі оптимізовані під швидкодію.
Висновок
Аналіз сучасних досліджень показує, що розвиток методів детекції та відстеження об’єктів у відео рухається у напрямку поєднання різних архітектур. YOLO-моделі забезпечують найкращу швидкодію та залишаються основою для систем реального часу. Трансформерні підходи, такі як DETR, демонструють вищу точність у складних сценах, але потребують оптимізації для практичного використання. Гібридні моделі, зокрема RT-DETR, намагаються об’єднати переваги обох підходів, досягаючи балансу між точністю та продуктивністю.
Список використаних джерел
1. Chaman M. Benchmarking YOLO-Based Deep Learning Models for Real-Time Object Detection in Hybrid ADAS and Intelligent Transportation Systems. – 2025. – URL: https://www.researchgate.net/publication/399222499 (дата звернення: 20.04.2026).
2. Zhang X., Zhu X. et al. Improved DETR-Based Object Detection Algorithm for Complex Scenes. – Frontiers in Neurorobotics. – 2024. – URL: https://www.frontiersin.org/articles/10.3389/fnbot.2024.1484276 (дата звернення: 20.04.2026).
3. Zhao Y., Wang G. et al. RT-DETR: Real-Time Detection Transformer. – arXiv preprint. – 2023. – URL: https://arxiv.org/abs/2304.08069 (дата звернення: 20.04.2026).
4. Allmendinger A., Saltık A. O., Peteinatos G. G. et al. Assessing the capability of YOLO- and transformer-based object detectors for real-time weed detection. – 2025. – URL: https://link.springer.com/article/10.1007/s11119-025-10246-0 (дата звернення: 20.04.2026).
|