Новый метод повышает эффективность систем искусственного интеллекта, преобразующих зрение

Трансформаторы зрения (ViT) — это мощные технологии искусственного интеллекта (ИИ), которые могут идентифицировать или классифицировать объекты на изображениях, однако существуют серьезные проблемы, связанные как с требованиями к вычислительной мощности, так и с прозрачностью принятия решений. Исследователи разработали новую методологию, которая решает обе проблемы, а также улучшает способность ViT идентифицировать, классифицировать и сегментировать объекты на изображениях.

Трансформеры — одни из самых мощных существующих моделей искусственного интеллекта. Например, ChatGPT — это искусственный интеллект, использующий архитектуру преобразователя, но входные данные, используемые для его обучения, — это язык. ViT — это искусственный интеллект на основе трансформатора, который обучается с использованием визуальных данных. Например, ViT можно использовать для обнаружения и классификации объектов на изображении, например, для идентификации всех автомобилей или всех пешеходов на изображении.

Однако ViTs сталкиваются с двумя проблемами.

Во-первых, модели-трансформеры очень сложны. По сравнению с объемом данных, подключаемых к ИИ, модели трансформаторов требуют значительного объема вычислительной мощности и большого объема памяти. Это особенно проблематично для ViT, поскольку изображения содержат очень много данных.

Во-вторых, пользователям сложно понять, как именно ViT принимают решения. Например, вы могли бы обучить ViT распознавать собак на изображении. Но не совсем понятно, как ВИТ определяет, что является собакой, а что нет. В зависимости от приложения понимание процесса принятия решений ViT, также известного как интерпретируемость модели, может быть очень важным.

Новая методология ViT, называемая «Внимание от патча к кластеру» (PaCa), решает обе проблемы.

«Мы решаем проблему, связанную с требованиями к вычислениям и памяти, используя методы кластеризации, которые позволяют архитектуре преобразователя лучше идентифицировать объекты на изображении и фокусироваться на них», — говорит Тяньфу Ву, автор статьи об этой работе и доцент электротехника и компьютерная инженерия в Университете штата Северная Каролина. «Кластеризация — это когда ИИ объединяет части изображения вместе на основе сходства, которое он находит в данных изображения. Это значительно снижает вычислительные требования к системе. До кластеризации вычислительные требования для ViT являются квадратичными. Например, если система выходит из строя Если изображение разбить на 100 меньших частей, необходимо будет сравнить все 100 единиц друг с другом, что составит 10 000 сложных функций.

«Благодаря кластеризации мы можем сделать этот процесс линейным, в котором каждую меньшую единицу нужно сравнивать только с заранее определенным количеством кластеров. Допустим, вы приказываете системе создать 10 кластеров; это будет всего лишь 1000 сложных функций. " - говорит Ву.

«Кластеризация также позволяет нам решить проблему интерпретируемости модели, потому что мы можем посмотреть, как в первую очередь были созданы кластеры. Какие функции, по его мнению, были важны при объединении этих разделов данных вместе? И потому что ИИ создает лишь небольшое количество кластеров, мы можем легко их рассмотреть».

Исследователи провели всестороннее тестирование PaCa, сравнив его с двумя современными ViT под названием SWin и PVT.

«Мы обнаружили, что PaCa превосходит SWin и PVT по всем параметрам», — говорит Ву. «PaCa лучше классифицировала объекты на изображениях, лучше идентифицировала объекты на изображениях и лучше сегментировала – по сути, очерчивала границы объектов на изображениях. Она также была более эффективной, то есть могла выполнять эти задачи быстрее, чем другие ВИТы.

«Следующим шагом для нас является расширение PaCa путем обучения на более крупных базовых наборах данных».

Доклад «PaCa-ViT: изучение внимания от патча к кластеру в преобразователях зрения» будет представлен на конференции IEEE/CVF по компьютерному зрению и распознаванию образов, которая пройдет 18-22 июня в Ванкувере, Канада. Первым автором статьи является Райан Грейнджер, доктор философии. студент штата Северная Каролина. Соавтором статьи является Томас Паниагуа, доктор философии. студент штата Северная Каролина; Си Сун, независимый исследователь; и Нареш Кунтур и Мун Вай Ли из BlueHalo.