Субота, 27 Червня, 2026
ГоловнаAIApple працює над еволюцією моделей зору
ГоловнаAIApple працює над еволюцією моделей зору

Apple працює над еволюцією моделей зору

-

Розвиток моделей зору зазнав значних змін із появою великих мовних моделей (LLM). Традиційно візуальні моделі працювали у фіксованих рамках, але інтеграція з LLM відкрила нові горизонти для попереднього навчання, дозволяючи створювати більш адаптивні й універсальні системи. Ця трансформація спрямувала дослідників на розробку підходів, які відповідають потребам мультимодальних застосувань.

Про це інформує Syncedreview.

Дослідницька група Apple презентувала AIMV2 у новій статті Multimodal Autoregressive Pre-training of Large Vision Encoders. Ця інновація демонструє використання мультимодального авторегресійного підходу для навчання візуальних кодерів. На відміну від традиційних методів, AIMV2 прогнозує як зображення, так і текстові маркери в єдиній послідовності, відкриваючи нові можливості в таких завданнях, як розпізнавання зображень, візуальне заземлення й мультимодальне розуміння.

Основні інновації AIMV2

Ключовою особливістю AIMV2 є інтеграція унімодального авторегресійного підходу в мультимодальне середовище. Розглядаючи патчі зображень і текстові маркери як єдину послідовність, модель покращує здатність розуміти взаємозв’язки між зображенням і текстом.

Процес попереднього навчання AIMV2 включає:

  • Мультимодальний декодер: модель прогнозує зображення й текстові маркери поетапно, використовуючи причинно-наслідковий підхід.
  • Ефективність навчання: AIMV2 потребує менших обчислювальних ресурсів, оскільки усуває складності, пов’язані з великими партіями даних.
  • Узгодженість із LLM: архітектура інтегрується з мовними моделями, що забезпечує зручність і гнучкість у мультимодальних програмах.

Серед ключових архітектурних змін:

  1. Обмежена самоувага: використання префіксної маски уваги для забезпечення двонаправленого прогнозування без додаткових налаштувань.
  2. Стабілізація навчання: впровадження функції SwiGLU як активації та заміна нормалізації на RMSNorm для підвищення стабільності.
  3. Уніфікований декодер: єдина архітектура для прогнозування як тексту, так і зображень, що підсилює мультимодальні можливості.

Результати й переваги AIMV2

Модель AIMV2-3B демонструє видатні результати, досягаючи 89,5% точності на ImageNet-1k із замороженим стовбуром. Вона також перевершує сучасні контрастивні моделі, такі як CLIP і SigLIP, у тестах на мультимодальне розуміння зображень.

Однією з основних причин цього є здатність AIMV2 максимально використовувати навчальні сигнали від усіх вхідних даних, забезпечуючи більш ефективне навчання навіть із невеликими обсягами даних.

Майбутнє мультимодальних систем

AIMV2 представляє значний крок уперед у розвитку моделей зору. Завдяки поєднанню прогнозування зображень і тексту в одній авторегресійній системі модель забезпечує високу продуктивність у багатьох завданнях.

Спрощений процес навчання та вдосконалення, такі як SwiGLU і RMSNorm, роблять AIMV2 масштабованим і адаптивним рішенням. Ця розробка може стати основою для створення більш ефективних і універсальних мультимодальних систем навчання в майбутньому.

Коваль Влад
Коваль Влад
Поки ми живемо своїм життям, штучний інтелект поступово охоплює все нові його аспекти. Вже не секрет, що кожний новий пристрій, кожна нова технічна розробка від космічної галузі до побутової техніки має ШІ. Сьогодні твій особистий ШІ лежить у кишені у вигляді смартфона, аналізуючі твої дії, пересування, форму тексту. Завтра він буде давати тобі поради, як краще діяти, пересуватися, писати. Післязавтра він буде здатний стати твоїм незамінним помічником у прийнятті рішень.

Схожі публікації

Вам сподобається

situs slot
slot dana
slot777
slot gacor hari ini