Дослідницька група NVIDIA представила OMCAT (Omni Context Aware Transformer) — інноваційну модель для мультимодального часового міркування, а також OCTAV (Omni Context and Temporal Audio Video) — унікальний набір даних, що дозволяє краще фіксувати переходи подій між аудіо та відео. Основою моделі стала технологія RoTE (Rotary Time Embeddings), вдосконалена версія RoPE, яка забезпечує ефективніше обчислення та точніше часове заземлення.
Про це інформує syncedreview.
Мультимодальні мовні моделі (LLM) уже досягли значного прогресу у створенні тексту та аналізі зображень і звуків. Проте синхронізація подій між аудіо- та відеопотоками залишалася слабким місцем цих технологій. Розробка OMCAT має на меті подолати цей бар’єр і забезпечити точніше розуміння зв’язку між різними типами даних.
Прорив у часовому міркуванні

OMCAT працює з новим підходом, що інтегрує як абсолютну, так і відносну часову інформацію. Це дозволяє моделі краще аналізувати події у часовому контексті, зокрема ті, що пов’язані з синхронізацією аудіо- та відеосигналів. Щоб досягти цього, OCTAV пропонує пари запитань і відповідей на основі відеоматеріалів, які акцентують увагу на переходах між подіями, позначених звуковими сигналами.
Набір даних OCTAV допомагає OMCAT ефективно розуміти прив’язані до часу події, об’єднуючи аудіо- та візуальні компоненти в єдиній структурі. Завдяки цьому модель долає обмеження, характерні для попередніх технологій, і підвищує якість розпізнавання та синхронізації подій у двох модальностях.
Результати та перспективи
У ході тестування, включаючи завдання AVQA (аудіовізуальні запитання-відповіді) та часові міркування, OMCAT продемонструвала високі результати, випереджаючи існуючі моделі. Висновки дослідників також підтвердили важливість інтеграції часових механізмів для точного аналізу мультимодальних даних.

Ця технологія стала проривом у мультимодальному штучному інтелекті, прокладаючи шлях для подальших досліджень у сфері крос-модального аналізу та часового міркування. Завдяки OMCAT, NVIDIA встановила новий стандарт для індустрії, демонструючи, що якісне поєднання різних модальностей і точне часове моделювання є ключем до розширення можливостей штучного інтелекту.

