Команда DeepMind презентувала JetFormer — передову авторегресійну модель на основі Transformer, створену для обробки необроблених даних. Вона здатна генерувати текст і зображення без використання попередньо навчених компонентів. Ця інновація демонструє значний прогрес у розвитку уніфікованих мультимодальних архітектур, що усувають традиційні обмеження, характерні для сучасних моделей.
Про це пише Syncedreview.
JetFormer вирізняється тим, що повністю покладається на власні алгоритми для роботи з даними. На відміну від багатьох сучасних рішень, які використовують окремі кодери або декодери для роботи з різними типами даних, JetFormer уніфікує ці процеси, що значно підвищує ефективність і гнучкість.
Інноваційні технології JetFormer
Ключовою особливістю нової моделі є використання нормалізуючих потоків для представлення зображень. Ця технологія дозволяє перетворювати зображення у приховані представлення, які є більш придатними для авторегресійного моделювання. Замість традиційної роботи з пікселями, яка ускладнює навчання, нормалізуючий потік забезпечує збереження всіх структурних особливостей зображення та дозволяє його точне декодування.
Також JetFormer зосереджується на аналізі високорівневої інформації завдяки двом стратегіям:
- Прогресивне посилення шуму Гауса — додавання та поступове зменшення шуму під час навчання, що дозволяє моделі фокусуватися на ключових функціях.
- Керування надлишковістю даних — зменшення розмірності зображень за допомогою аналізу основних компонентів (PCA) без втрати важливої інформації.
Для перевірки JetFormer команда DeepMind провела серію експериментів. Модель успішно виконала два основних завдання:
- Генерація умовного зображення класу ImageNet — JetFormer показав результати, які відповідають рівню сучасних рішень.
- Мультимодальна генерація тексту та зображень у веб-масштабі — JetFormer продемонстрував гнучкість та ефективність, перевершивши конкурентів у багатьох аспектах.

Особливої уваги заслуговує здатність JetFormer працювати в режимі наскрізного навчання, що спрощує інтеграцію моделі у різні мультимодальні середовища.
Вплив на розвиток ШІ
JetFormer є важливим кроком уперед у розробці уніфікованих систем для роботи з текстом і зображеннями. Завдяки використанню передових алгоритмів, модель закладає основу для створення більш інтегрованих рішень у сфері штучного інтелекту. Вона не лише підвищує ефективність роботи з даними, але й відкриває нові можливості для подальшого дослідження мультимодальних архітектур.
JetFormer демонструє перспективи створення ШІ, здатного працювати з необробленими даними без втрати їхньої точності. Такий підхід може знайти застосування в галузях, де потрібна швидка адаптація до різних типів даних, наприклад, у медицині, автоматизації або розробці інноваційних технологій.
Нещодавно редакція сайту AI360 писала про те, що DeepMind розробила ШІ, здатний аналізувати структуру біологічних молекул, цей ШІ здатен аналізувати структуру та взаємодію всіх відомих біологічних молекул.

