Сучасні системи комп’ютерного зору активно використовуються у медицині, промисловості, транспортних системах, мобільних застосунках та інтелектуальних сервісах аналізу даних. Однією з найбільш складних задач у галузі розпізнавання зображень є дрібнозерниста візуальна класифікація (Fine-Grained Visual Classification, FGVC), яка передбачає розпізнавання візуально схожих підкатегорій об’єктів.
Особливістю FGVC є низька міжкласова варіативність та висока внутрішньокласова варіативність. Це означає, що різні класи можуть мати мінімальні візуальні відмінності, тоді як об’єкти одного класу можуть суттєво відрізнятися через освітлення, ракурс, фон або спосіб представлення об’єкта. У зв’язку з цим традиційні методи комп’ютерного зору демонструють обмежену ефективність при розв’язанні таких задач.
Для підвищення точності класифікації застосовуються сучасні нейромережеві архітектури, зокрема згорткові нейронні мережі (CNN), EfficientNet та моделі на основі механізмів уваги (Attention Mechanisms) [2, 6].
Важливу роль також відіграють Vision Transformer (ViT) та гібридні архітектури, здатні ефективно виділяти локальні дискримінативні ознаки зображення [8]. Для мобільних та вбудованих систем перспективними є компактні архітектури MobileNetV3, оптимізовані за швидкодією та енергоспоживанням [10].
Одним із найбільш ефективних підходів у задачах FGVC є трансферне навчання, яке дозволяє використовувати попередньо навчені моделі для адаптації до спеціалізованих наборів даних. Використання моделей, попередньо навчених на ImageNet, дозволяє скоротити час навчання та зменшити потребу у великих обсягах розмічених даних [3].
Додатковим методом підвищення якості класифікації є аугментація даних, що забезпечує стійкість нейромережі до варіацій зображень та знижує ризик перенавчання моделі [7].
Практичним прикладом задачі дрібнозернистої класифікації є розпізнавання кулінарних зображень. Різні страви можуть мати подібні візуальні характеристики, тоді як одна й та сама категорія страв може суттєво відрізнятися залежно від способу приготування або подачі. Для дослідження таких задач широко використовується набір даних Food-101, що містить 101 категорію кулінарних зображень [4].
Перспективним напрямом розвитку FGVC є поєднання нейромережевих моделей із механізмами локалізації ключових ознак, self-supervised learning та мультимодальними підходами до аналізу даних. Особливий інтерес становлять моделі CLIP, які поєднують аналіз зображень і текстових описів у єдиному просторі представлення ознак [9].
Отже, дрібнозерниста візуальна класифікація залишається актуальною проблемою сучасного комп’ютерного зору. Використання сучасних архітектур глибокого навчання, трансферного навчання та методів аугментації даних створює передумови для побудови високоточних систем автоматизованого аналізу зображень.
Список літератури
1. Глибовець М. М., Олецький О. В. Штучний інтелект : підручник. Київ : Видавничий дім «КМ Академія», 2002. 366 с.
2. Tan M., Le Q. V. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks // Proceedings of the 36th International Conference on Machine Learning. 2019. P. 6105–6114. URL: https://arxiv.org/abs/1905.11946
3. Chollet F. Deep Learning with Python. 2nd ed. Shelter Island : Manning Publications, 2021. 504 p.
URL: https://www.manning.com/books/deep-learning-with-python-second-edition
4. Bossard L., Guillaumin M., Van Gool L. Food-101 – Mining Discriminative Components with Random Forests // European Conference on Computer Vision. Springer, 2014. P. 446–461. URL: https://data.vision.ee.ethz.ch/cvl/datasets_extra/food-101/
5. Кравець П. О. Системи штучного інтелекту : навчальний посібник. Львів : Видавництво Львівської політехніки, 2012. 240 с.
6. Goodfellow I., Bengio Y., Courville A. Deep Learning. Cambridge : MIT Press, 2016. 775 p. URL: https://www.deeplearningbook.org/
7. Бондаренко М. Ф., Шабала Є. Є. Комп’ютерний зір та обробка зображень : навчальний посібник. Харків : ХНУРЕ, 2011. 312 с.
8. Dosovitskiy A., Beyer L., Kolesnikov A. et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale // International Conference on Learning Representations (ICLR). 2021. URL: https://arxiv.org/abs/2010.11929
9. Radford A., Kim J. W., Hallacy C. et al. Learning Transferable Visual Models From Natural Language Supervision // Proceedings of the 38th International Conference on Machine Learning (ICML). 2021. P. 8748–8763. URL: https://arxiv.org/abs/2103.00020
10. Howard A., Sandler M., Chu G. et al. Searching for MobileNetV3 // Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). 2019. P. 1314–1324. URL: https://arxiv.org/abs/1905.02244
|