Конкуренція між технологічними гігантами у сфері штучного інтелекту вийшла за межі лабораторій — вона дісталась ігрових консолей. Моделі Gemini від Google та Claude від Anthropic наразі змагаються в одній із найнесподіваніших арен — світі класичних ігор Pokémon. У цьому експерименті дослідники намагаються з’ясувати, як системи штучного інтелекту міркують, реагують на загрози та приймають рішення під тиском.
Про це повідомляє у своїй статті Techcrunch.
Один із несподіваних висновків — у деяких ситуаціях ШІ поводиться так, ніби «панікує». У новому звіті DeepMind зазначається, що Gemini 2.5 Pro починає втрачати здатність до логічного мислення, коли ситуація в грі стає критичною — наприклад, коли його покемони майже вичерпали здоров’я. Хоча мова йде про алгоритм, модель демонструє поведінку, схожу на людську – ухвалення поспішних, неефективних рішень, коли час критичний.
Прямі трансляції як вікно у міркування ШІ
Ініціатива розробників створити трансляції на Twitch під назвами “Gemini Plays Pokémon” та “Claude Plays Pokémon” дозволила спостерігати за ігровим процесом в режимі реального часу. Найцікавіше — це не швидкість проходження, а саме процес: як моделі аналізують ситуації, роблять висновки та вчаться на помилках. У потоках демонструється “міркування” ШІ — текстова розшифровка внутрішнього процесу прийняття рішень.
Попри очевидні досягнення, Gemini 2.5 потребує сотень годин, щоб пройти гру, яку звичайна дитина освоїла б за лічені дні. При цьому аудиторія Twitch легко помічає моменти, коли модель «ламається» — ігнорує інструменти, якими раніше користувалась, або просто діє нелогічно. Це породжує питання: чи може ШІ розвиватися в нестабільному середовищі так само ефективно, як у чітко структурованих умовах?
Claude, розроблений Anthropic, не відстає за креативністю. Під час проходження рівня в Печері гори Мун, ШІ зробив хибний висновок: якщо спеціально дати всім покемонам знепритомніти, персонаж переміститься до наступного міста. Проте гра повернула героя назад — до останнього відвіданого Центру покемонів. Спостерігачі зі здивуванням і тривогою дивилися, як штучний інтелект «цілеспрямовано програвав», намагаючись обійти складну ділянку гри.
Цей приклад показує, як ШІ будує гіпотези на основі обмеженого досвіду, що нагадує людське навчання методом спроб і помилок. Але він також демонструє небезпеку неправильних висновків, які можуть призвести до повного провалу стратегії.
Gemini як інженер: розв’язання складних головоломок
Попри складнощі з бойовою частиною гри, штучний інтелект показав значну перевагу у вирішенні головоломок. Використовуючи агентні інструменти — спеціальні модулі, створені на основі Gemini 2.5 Pro — ШІ навчився ефективно пересувати валуни та знаходити оптимальні маршрути. Google повідомляє, що поточна версія моделі частково створила ці інструменти самостійно, що свідчить про потенціал до самостійного розвитку.
Це відкриває перспективу: з часом такі моделі зможуть самостійно будувати додаткові інструменти, які виправлятимуть їхні власні недоліки, зокрема поведінку «паніки». У підсумку, ігрові експерименти можуть дати не лише цікаве видовище, а й цінну інформацію про те, як покращити роботу ШІ в реальному світі.
Раніше редакція сайту AI360 розповілдала про те, як ШІ від Google Gemini пройшов культову гру Pokémon Blue. Модель Gemini 2.5 Pro зуміла завершити культову гру Pokémon Blue. Гра була випущена ще в 1996 році для GameBoy. І хоча на перший погляд це може здаватися курйозом або просто забавкою для фанатів ретро-ігор. Але насправді такий результат є ознакою глибших змін у можливостях великих мовних моделей.

