МЕТОДИ АВТОМАТИЧНОГО ПІДРАХУНКУ ОБ'ЄКТІВ НА ЗОБРАЖЕННІ
28.04.2026 23:31
[1. Information systems and technologies]
Author: Журба Мирослав Олександрович, студент, Київський національний університет будівництва і архітектури; Терейковська Людмила Олексіївна, доктор технічних наук, професор, Київський національний університет будівництва і архітектури
Сучасні підходи до автоматичного підрахунку об’єктів на зображеннях активно розвиваються завдяки досягненням у сфері комп’ютерного зору, машинного та глибокого навчання. Дана задача є однією з ключових у процесах аналізу візуальних даних, оскільки вона безпосередньо пов’язана з отриманням кількісної інформації про об’єкти на зображеннях або відео. Практичне значення автоматичного підрахунку об’єктів проявляється у великій кількості галузей, зокрема у системах відеоспостереження, транспортній аналітиці, медицині, сільському господарстві та промисловості. Використання автоматизованих методів дозволяє значно підвищити точність обробки інформації, мінімізувати вплив людського фактору та забезпечити обробку великих обсягів даних у реальному часі.
Метою роботи є визначення перспективних напрямків розвитку методів автоматичного підрахунку об'єктів на зображенні. Для досягнення мети проведено аналіз сучасних науково-прикладних робіт в цій області.
У роботі [1] запропоновано модель нейронної мережі Counting TRansformer (CounTR) для підрахунку об'єктів на зображенні, яка явно фіксує подібність між ділянками зображення з використанням механізму уваги. Застосовується двоетапний режим навчання: спочатку попередньо модель навчається за методом самонавчання, далі виконується контрольоване тонке налаштування параметрів. Також авторами запропоновано масштабований конвеєр для синтезу навчальних зображень з різних семантичних категорій. Недоліки, пов’язані із неправильним визначенням одиниці підрахунку (наприклад, окремих лінз замість сонцезахисних окулярів), зумовлені варіативністю масштабів у межах обмежувальних прямокутників, що пропонується виправити шляхом нормалізації масштабу візуальних ознак та уточнення просторових меж об’єктів під час формування навчальних прикладів.
У роботі [2] порівнювалися контурна розмітка на бінаризованому зображенні, метод сегментації водоспадом та використання моделі YOLOv7. Алгоритми порівнювалися один з одним з точки зору правильності визначення кількості об'єктів, присутніх на ілюстрації, та точності визначення меж областей, розрахованої за допомогою коефіцієнта подібності Жаккара. Система YOLOv7 дала найкращі результати, а метод контурної розмітки - найгірші. Метод контурної розмітки не рекомендовано використовувати в змінних середовищах, де не можна гарантувати, що фон буде однорідним. До недоліків YOLOv7 віднесено складність розпізнавання малих об'єктів. Перспективи подальших досліджень спрямовані на оптимізацію вартості апаратних платформ і зниження енергоспоживання моделей (актуально для мобільних систем), що функціонують у складних умовах, а також на адаптацію розроблених методів для інтелектуальних систем розпізнавання об’єктів у сферах побутової автоматизації та роздрібної торгівлі (розумні холодильники, розумні кухні, системи оформлення замовлення.
У статті [3] розглянуто задачу виявлення малих об'єктів на аерофотознімках дистанційного зондування. Представлено огляд сучасних підходів до виявлення малих об’єктів, де підкреслюється важливість використання багатомасштабних ознак та спеціалізованих архітектур нейронних мереж для роботи зі складними сценами. Особливу увагу приділено механізмам обробки об’єктів різного масштабу, оскільки об’єкти відрізняються за розміром. Для цього запропоновано використовувати багаторівневі ознаки та модулі уваги, що дозволяє виділити важливі області зображення та зменшити вплив фону. Це є особливо актуальним для задач автоматичного підрахунку об’єктів, оскільки велика кількість об’єктів може мати незначні розміри, частково перекриватися або бути розташованими у щільних групах, що суттєво ускладнює їх коректну ідентифікацію традиційними методами обробки зображень. Також показано, що глибокі нейронні мережі демонструють кращу стійкість до змін освітлення, шумів, що робить їх більш придатними для використання в реальних умовах.
У дослідженні [4] запропоновано підхід, що базується на використанні підказок (prompts) для визначення об’єктів на зображенні. Такий підхід дозволяє формулювати задачу підрахунку у вигляді інструкцій або текстових запитів, що інтерпретуються моделлю для виділення відповідних об’єктів. Основною перевагою цього напрямку є значне зменшення витрат часу та ресурсів на підготовку розмічених навчальних вибірок, які зазвичай є найбільш трудомістким етапом у класичних методах машинного навчання. Крім того, використання prompt-based підходів забезпечує високу гнучкість, оскільки одна й та сама модель може бути застосована до різних типів задач без необхідності перенавчання або суттєвої адаптації. Також такі методи демонструють кращу узагальнюваність, оскільки не залежать від конкретного датасету, на якому була попередньо навчена модель. Це робить їх особливо корисними у випадках, коли доступ до великих розмічених наборів даних обмежений або коли необхідно швидко адаптувати систему до нових умов.
У роботі [5] показано, що використання YOLOv8 дозволяє ефективно виконувати підрахунок об’єктів у щільних сценах завдяки високій швидкості обробки та достатній точності. Такий результат досягається за рахунок покращеної архітектури моделі, оптимізованих механізмів виділення ознак та більш ефективного представлення об’єктів різного масштабу.
У роботі [6] запропоновано підхід, який дозволяє покращити якість підрахунку транспортних засобів та людей у складних дорожніх середовищах за рахунок більш ефективного представлення ознак зображення та використання спеціалізованих механізмів обробки. Основна ідея полягає у виділенні більш інформативних характеристик об’єктів, що дозволяє моделі краще розрізняти окремі елементи.
Висновок
Сучасний стан розробок у сфері автоматичного підрахунку об’єктів характеризується переходом до гібридних моделей, які інтегрують можливості трансформерів та класичних детекторів для підвищення продуктивності аналізу. Пріоритетним вектором розвитку є розробка стійких до складних умов експлуатації алгоритмів, що потребують мінімальних ресурсів для адаптації під специфічні прикладні задачі. Це дозволить забезпечити високу точність обробки візуальних даних у режимі реального часу без надлишкових витрат на навчання.
СПИСОК ВИКОРИСТАННИХ ДЖЕРЕЛ
1. Liu C., Zhong Y., Zisserman A., Xie W. CounTR: Transformer-based Generalised Visual Counting. 2022. DOI: https://doi.org/10.48550/arXiv.2208.13721
2. Wang M., Zhang Z., Liu H. Counting objects using image segmentation methods. Procedia Computer Science, 2024. DOI: https://doi.org/10.1016/j.procs.2024.09.558
3. Hua W., Chen Q. A Survey of Small Object Detection Based on Deep Learning in Aerial Images. Artificial Intelligence Review, 2025. DOI: https://doi.org/10.1007/s10462-025-11150-9
4. Shi Z., Sun Y., Zhang M. Training-free Object Counting with Prompts. 2023. DOI: https://doi.org/10.48550/arXiv.2307.00038
5. Li Y., Wang Y., Sui D., Guo M. Dense Object Detection and Counting Based on YOLOv8. 2025. DOI: https://doi.org/10.1038/s40494-025-01587-0
6. Fu Q., Min W., Sheng W., Peng C. Counting Dense Object of Multiple Types Based on Feature Enhancement. 2024. DOI: https://doi.org/10.3389/fnbot.2024.1383943