У когнітивній науці людське мислення поділяється на дві системи: швидке, інтуїтивне мислення Системи 1 і повільне, аналітичне мислення Системи 2. Цей поділ надихнув дослідників на створення моделей штучного інтелекту, які імітують ці процеси. Нещодавні дослідження показують, що інтеграція елементів Системи 2 в сучасні моделі Transformer може значно підвищити їхню здатність до міркування. Проте такі моделі зазвичай потребують більше ресурсів і часу для обробки.
Про цепише Syncedreview.
Команда дослідників Meta представила модель Dualformer, яка поєднує обидва підходи в одному алгоритмі. Цей новий підхід дозволяє ефективно переключатися між швидким і повільним режимами мислення залежно від завдання. Завдяки цьому Dualformer забезпечує високу продуктивність і знижує обчислювальні витрати.

Як працює Dualformer
Dualformer використовує унікальну методику навчання, яка включає як проміжні кроки міркувань, так і остаточні рішення. Цей підхід, відомий як рандомізовані сліди міркувань, дозволяє моделі імітувати скорочення, властиві Системі 1, і водночас зберігати можливість глибокого аналізу, характерного для Системи 2.
Для оптимізації процесу були створені чотири рівні спрощення:
- Рівень 1: Видалення проміжних етапів аналізу, таких як перевірка близького розташування.
- Рівень 2: Додаткове скорочення обчислень вартості.
- Рівень 3: Випадкове видалення 30% вторинних даних.
- Рівень 4: Пропуск усіх проміжних міркувань, залишаючи лише остаточний результат.
Ці рівні дозволяють Dualformer адаптуватися до різних завдань і обирати оптимальний підхід до вирішення кожного з них.
Ефективність у різних режимах
Dualformer демонструє значні досягнення у трьох режимах роботи:
- Повільний режим: Забезпечує 97,6% успішності у складних задачах, таких як навігація в лабіринтах, скорочуючи кроки міркування на 45,5%.
- Швидкий режим: Досягає 80% оптимальної швидкості виконання завдань, значно перевищуючи показники традиційних моделей.
- Автоматичний режим: Автоматично обирає між швидким і повільним режимами, демонструючи успішність 96,6% при скороченні обчислювальних кроків на 59,9%.

Нові горизонти для ШІ
Dualformer уже показав свою ефективність у таких складних задачах, як головоломки та навігація. Він не лише підвищує точність і швидкість роботи моделей, але й значно знижує обчислювальні витрати. Ця розробка може стати важливим етапом у створенні AI-систем, здатних адаптуватися до різних типів завдань, комбінуючи швидкість і аналітичність у єдиній структурі.
Dualformer відкриває нові можливості для застосування когнітивних принципів у штучному інтелекті. Його адаптивність і ефективність можуть стати основою для створення більш гнучких і ресурсозберігаючих моделей, здатних вирішувати навіть найскладніші задачі з мінімальними витратами.

