AMST2: агрегированный мульти

Научные отчеты, том 13, Номер статьи: 9062 (2023) Цитировать эту статью

59 доступов

2 Альтметрика

Подробности о метриках

В последнее время многие существующие визуальные трекеры добились значительного прогресса, включив либо пространственную информацию из многоуровневых слоев свертки, либо временную информацию для отслеживания. Однако дополнительные преимущества как пространственной, так и временной информации не могут быть использованы, когда эти два типа информации используются отдельно. В этой статье мы представляем новый подход к надежному визуальному отслеживанию с использованием модели на основе преобразователя, которая включает в себя как пространственную, так и временную контекстную информацию на нескольких уровнях. Чтобы интегрировать уточненные карты сходства через многоуровневые пространственные и временные кодеры, мы предлагаем кодировщик агрегации. Следовательно, выходные данные предлагаемого кодера агрегации содержат полезные функции, которые интегрируют глобальные контексты многоуровневого пространственного и временного контекстов. Предлагаемая нами функция предлагает контрастное, но дополняющее друг друга представление многоуровневых пространственных и временных контекстов. Эта характеристика особенно полезна в сложных воздушных сценариях, где сбои в отслеживании могут возникать из-за окклюзии, размытия при движении, небольших объектов и изменений масштаба. Кроме того, наш трекер использует легкую магистраль сети, обеспечивая быстрое и эффективное отслеживание объектов в наборах аэрофотоснимков. Кроме того, предлагаемая архитектура позволяет обеспечить более надежное отслеживание объектов при значительных изменениях за счет обновления функций самого последнего объекта при сохранении исходной информации о шаблоне. Обширные эксперименты по семи сложным краткосрочным и долгосрочным тестам воздушного слежения показали, что предлагаемый трекер превосходит современные методы слежения как по скорости обработки данных в реальном времени, так и по производительности.

Визуальное отслеживание интересующего объекта — очень важная и сложная тема исследований в области компьютерного зрения1. Основная задача визуального трекинга — оценить местоположение и размер произвольного объекта в последовательности видеокадров путем установления соответствий между одинаковыми пикселями в разных кадрах. В последние годы, с ростом важности и использования беспилотных летательных аппаратов (БПЛА), таких как дроны, изучаются различные методы визуального отслеживания, использующие данные с воздуха2,3. Несмотря на значительные достижения в визуальном отслеживании, воздушное отслеживание по-прежнему сталкивается с многочисленными проблемами, включая отслеживание в реальном времени, колебания освещенности, окклюзию, быстрое движение, помехи на заднем плане и размытие.

Обычные парадигмы визуального отслеживания можно разделить на две категории: (1) отслеживание за обнаружением и (2) отслеживание на основе сиамской сети.

Метод отслеживания по обнаружению сначала обнаруживает объект в каждом видеокадре, а затем обновляет местоположение объекта с помощью модели движения. Дискриминирующий корреляционный фильтр (DCF) представляет собой типичный метод отслеживания за обнаружением, который использует преобразования Фурье для эффективного вычисления перекрестной корреляции и обеспечивает обработку в реальном времени4,5,6,7,8,9,10,11. Трекер DCF также использует созданные вручную функции, такие как гистограмма ориентированных градиентов (HOG), для представления объекта и фона. Однако трекер DCF имеет некоторые ограничения, такие как неспособность обрабатывать изменения масштаба и значительные изменения внешнего вида.

Используя глубокие возможности сверточных нейронных сетей (CNN), методы глубокого обучения добились большего прогресса в отслеживании производительности, чем трекеры на основе DCF12,13,14,15,16,17,18. Несмотря на достижения в области трекеров на основе глубокого обучения, некоторым алгоритмам не хватает вычислительных ресурсов, что делает их непригодными для встроенных платформ, в то время как другие не могут обеспечить желаемый уровень производительности отслеживания. До недавнего времени трекеры на основе DCF часто использовались в приложениях начального уровня, игнорируя их более слабые характеристики отслеживания по сравнению с методами, основанными на глубоком обучении, из-за ограничений устройства, например, во встроенных платформах.