Еволюція попереднього навчання моделей зору від Apple

Розвиток моделей зору зазнав значних змін із появою великих мовних моделей (LLM). Традиційно візуальні моделі працювали у фіксованих рамках, але інтеграція з LLM відкрила нові горизонти для попереднього навчання, дозволяючи створювати більш адаптивні й універсальні системи. Ця трансформація спрямувала дослідників на розробку підходів, які відповідають потребам мультимодальних застосувань.

Про це інформує Syncedreview.

Дослідницька група Apple презентувала AIMV2 у новій статті Multimodal Autoregressive Pre-training of Large Vision Encoders. Ця інновація демонструє використання мультимодального авторегресійного підходу для навчання візуальних кодерів. На відміну від традиційних методів, AIMV2 прогнозує як зображення, так і текстові маркери в єдиній послідовності, відкриваючи нові можливості в таких завданнях, як розпізнавання зображень, візуальне заземлення й мультимодальне розуміння.

Основні інновації AIMV2

Ключовою особливістю AIMV2 є інтеграція унімодального авторегресійного підходу в мультимодальне середовище. Розглядаючи патчі зображень і текстові маркери як єдину послідовність, модель покращує здатність розуміти взаємозв’язки між зображенням і текстом.

Процес попереднього навчання AIMV2 включає:

Мультимодальний декодер: модель прогнозує зображення й текстові маркери поетапно, використовуючи причинно-наслідковий підхід.

Ефективність навчання: AIMV2 потребує менших обчислювальних ресурсів, оскільки усуває складності, пов’язані з великими партіями даних.

Узгодженість із LLM: архітектура інтегрується з мовними моделями, що забезпечує зручність і гнучкість у мультимодальних програмах.

Серед ключових архітектурних змін:

Обмежена самоувага: використання префіксної маски уваги для забезпечення двонаправленого прогнозування без додаткових налаштувань.
Стабілізація навчання: впровадження функції SwiGLU як активації та заміна нормалізації на RMSNorm для підвищення стабільності.
Уніфікований декодер: єдина архітектура для прогнозування як тексту, так і зображень, що підсилює мультимодальні можливості.

Результати й переваги AIMV2

Модель AIMV2-3B демонструє видатні результати, досягаючи 89,5% точності на ImageNet-1k із замороженим стовбуром. Вона також перевершує сучасні контрастивні моделі, такі як CLIP і SigLIP, у тестах на мультимодальне розуміння зображень.

Однією з основних причин цього є здатність AIMV2 максимально використовувати навчальні сигнали від усіх вхідних даних, забезпечуючи більш ефективне навчання навіть із невеликими обсягами даних.

Майбутнє мультимодальних систем

AIMV2 представляє значний крок уперед у розвитку моделей зору. Завдяки поєднанню прогнозування зображень і тексту в одній авторегресійній системі модель забезпечує високу продуктивність у багатьох завданнях.

Спрощений процес навчання та вдосконалення, такі як SwiGLU і RMSNorm, роблять AIMV2 масштабованим і адаптивним рішенням. Ця розробка може стати основою для створення більш ефективних і універсальних мультимодальних систем навчання в майбутньому.

Apple працює над еволюцією моделей зору

Основні інновації AIMV2

Результати й переваги AIMV2

Майбутнє мультимодальних систем

Схожі публікації

Вам сподобається

Редакція рекомендує

Цікаве про фінанси

Популярні позначки

Контакти

Соціальні мережі