Некомерційна організація Arc Prize Foundation, співзасновником якої є відомий дослідник штучного інтелекту Франсуа Шолле, анонсувала створення нового тесту для оцінки рівня загального інтелекту сучасних моделей ШІ. Нещодавно у блозі організації було оголошено про запуск ARC-AGI-2. Це складний тест, який перевіряє здатність моделей адаптуватися до нових завдань.
Про це повідомляє Techcrunch.
Попри очікування, більшість провідних моделей штучного інтелекту не змогли успішно пройти цей тест. За даними рейтингу Arc Prize, моделі з розвинутими можливостями міркування, такі як o1-pro від OpenAI і R1 від DeepSeek, продемонстрували результати лише на рівні 1–1,3%. Потужні моделі без міркувань, включно з GPT-4.5, Claude 3.7 Sonnet і Gemini 2.0 Flash, також не змогли досягти значних успіхів, набравши приблизно 1% балів.
Як працює ARC-AGI-2
Новий тест базується на головоломках, у яких штучний інтелект має виявити закономірності у візуальних даних, що складаються з різнокольорових квадратів. Після чого ШІ повинен згенерувати правильний шаблон відповідей. Основна мета тесту — визначити, чи може ШІ ефективно засвоювати нові навички, які виходять за межі його навчальних даних.
Щоб встановити базову лінію продуктивності, Arc Prize Foundation запропонувала понад 400 людям пройти ARC-AGI-2. Виявилося, що в середньому вони правильно відповідали на 60% запитань, що значно перевищує результати найкращих моделей штучного інтелекту. Франсуа Шолле підкреслив, що новий тест є більш точним індикатором інтелекту ШІ порівняно з попередньою версією ARC-AGI-1.
Подолання обмежень попереднього тесту
Одним із головних недоліків ARC-AGI-1 було те, що моделі могли використовувати значні обчислювальні ресурси для досягнення хороших результатів. У новій версії тесту ARC-AGI-2 введено показник ефективності, який оцінює не лише правильність відповідей, а й швидкість та оптимальність розв’язання завдань.
Грег Камрадт, співзасновник Arc Prize Foundation, зазначив, що важливим аспектом інтелекту є не лише здатність знаходити рішення, а й те, наскільки ефективно це відбувається. Тест оцінює, наскільки швидко та з якими витратами система ШІ може набути нових навичок.
Виклики для індустрії штучного інтелекту
Перша версія тесту ARC-AGI-1 залишалася неподоланою близько п’яти років. Лише в грудні 2024 року OpenAI змогла створити модель o3, яка досягла людського рівня продуктивності. Проте навіть ця модель зазнала невдачі на ARC-AGI-2: її модифікована версія o3 (низький) набрала всього 4% балів, витративши при цьому 200 доларів обчислювальної потужності на кожне завдання.
В умовах, коли технологічні компанії шукають нові способи оцінки розвитку штучного інтелекту, поява ARC-AGI-2 є важливим кроком уперед. Співзасновник Hugging Face Томас Вулф нещодавно заявив, що індустрія потребує більш складних та ненасичених тестів, здатних оцінювати ключові характеристики штучного інтелекту, зокрема його креативність.
У зв’язку з цим Arc Prize Foundation також оголосила конкурс Arc Prize 2025. Його мета — знайти розробників, які зможуть досягти 85% точності у тесті ARC-AGI-2, витрачаючи при цьому не більше ніж 0,42 долара на кожне завдання. Це стане важливим випробуванням для всієї сфери ШІ, адже новий тест вимагає не лише потужності, а й справжнього інтелекту.

