Вівторок, 14 Квітня, 2026
ГоловнаAINVIDIA та OMCAT: новий стандарт мультимодального AI
ГоловнаAINVIDIA та OMCAT: новий стандарт мультимодального AI

NVIDIA та OMCAT: новий стандарт мультимодального AI

-

Дослідницька група NVIDIA представила OMCAT (Omni Context Aware Transformer) — інноваційну модель для мультимодального часового міркування, а також OCTAV (Omni Context and Temporal Audio Video) — унікальний набір даних, що дозволяє краще фіксувати переходи подій між аудіо та відео. Основою моделі стала технологія RoTE (Rotary Time Embeddings), вдосконалена версія RoPE, яка забезпечує ефективніше обчислення та точніше часове заземлення.

Про це інформує syncedreview.

Мультимодальні мовні моделі (LLM) уже досягли значного прогресу у створенні тексту та аналізі зображень і звуків. Проте синхронізація подій між аудіо- та відеопотоками залишалася слабким місцем цих технологій. Розробка OMCAT має на меті подолати цей бар’єр і забезпечити точніше розуміння зв’язку між різними типами даних.

Прорив у часовому міркуванні

OMCAT працює з новим підходом, що інтегрує як абсолютну, так і відносну часову інформацію. Це дозволяє моделі краще аналізувати події у часовому контексті, зокрема ті, що пов’язані з синхронізацією аудіо- та відеосигналів. Щоб досягти цього, OCTAV пропонує пари запитань і відповідей на основі відеоматеріалів, які акцентують увагу на переходах між подіями, позначених звуковими сигналами.

Набір даних OCTAV допомагає OMCAT ефективно розуміти прив’язані до часу події, об’єднуючи аудіо- та візуальні компоненти в єдиній структурі. Завдяки цьому модель долає обмеження, характерні для попередніх технологій, і підвищує якість розпізнавання та синхронізації подій у двох модальностях.

Результати та перспективи

У ході тестування, включаючи завдання AVQA (аудіовізуальні запитання-відповіді) та часові міркування, OMCAT продемонструвала високі результати, випереджаючи існуючі моделі. Висновки дослідників також підтвердили важливість інтеграції часових механізмів для точного аналізу мультимодальних даних.

Ця технологія стала проривом у мультимодальному штучному інтелекті, прокладаючи шлях для подальших досліджень у сфері крос-модального аналізу та часового міркування. Завдяки OMCAT, NVIDIA встановила новий стандарт для індустрії, демонструючи, що якісне поєднання різних модальностей і точне часове моделювання є ключем до розширення можливостей штучного інтелекту.

Коваль Влад
Коваль Влад
Поки ми живемо своїм життям, штучний інтелект поступово охоплює все нові його аспекти. Вже не секрет, що кожний новий пристрій, кожна нова технічна розробка від космічної галузі до побутової техніки має ШІ. Сьогодні твій особистий ШІ лежить у кишені у вигляді смартфона, аналізуючі твої дії, пересування, форму тексту. Завтра він буде давати тобі поради, як краще діяти, пересуватися, писати. Післязавтра він буде здатний стати твоїм незамінним помічником у прийнятті рішень.

Схожі публікації

Вам сподобається

situs slot
slot dana
slot777
slot gacor hari ini