Звичні способи порівняння можливостей штучного інтелекту не завжди дають точні результати, тому розробники шукають альтернативні методи оцінки. Одним із таких підходів став Minecraft Benchmark (MC-Bench) — унікальна платформа, яка використовує популярну гру для перевірки та порівняння генеративних моделей ШІ.
Про це повідомляє Techcrunch.
На цій платформі користувачі можуть оцінювати роботи, створені штучним інтелектом у Minecraft, і голосувати за найкращу. При цьому голосування проводиться анонімно: спочатку учасники обирають найкращу роботу, а вже після цього дізнаються, яка модель її згенерувала.
Хто стоїть за проєктом та як він працює
Ініціатором MC-Bench став 12-класник Аді Сінгх, який разом із командою волонтерів розробив цей метод оцінки ШІ. Він пояснює, що Minecraft обрали не випадково — це найпопулярніша відеогра в історії, і навіть ті, хто ніколи в неї не грав, можуть оцінити, яка з робіт виглядає краще.
«Minecraft дає змогу людям легше розуміти, як розвивається штучний інтелект», — зазначає Аді Сінгх.
Наразі над MC-Bench працюють вісім волонтерів. Хоча такі гіганти, як OpenAI, Google, Anthropic та Alibaba, надали доступ до своїх моделей для тестування, вони не беруть активної участі в розробці платформи.
Ігри як новий метод тестування штучного інтелекту
Ідея тестування ШІ через відеоігри не нова. До цього дослідники використовували такі ігри, як Pokémon Red, Street Fighter та Pictionary, для перевірки можливостей штучного інтелекту. Відеоігри дозволяють оцінити адаптивність моделей у контрольованому середовищі, що безпечніше та зручніше, ніж реальні експерименти.
Зазвичай ШІ оцінюють за стандартними тестами, такими як LSAT або тести з програмування. Однак ці оцінки часто вводять в оману: наприклад, GPT-4 може показувати відмінні результати в логічних тестах, але не завжди справляється з простими завданнями, як-от визначення кількості букв у слові «полуниця». Аналогічно Claude 3.7 Sonnet досягає 62,3% точності у тестах з програмування, але поступається навіть дітям у грі Pokémon.
Чому саме Minecraft
MC-Bench працює як тест програмування, у якому штучний інтелект повинен написати код для створення конкретної конструкції у Minecraft, наприклад, «Сніговик Фрості» або «Тропічна хатинка на березі океану». Однак оцінювачам не потрібно знати програмування — вони просто вибирають, яка з робіт виглядає краще. Це робить метод доступним для ширшої аудиторії та дозволяє зібрати більше даних про ефективність різних моделей.
Попри те, що деякі експерти сумніваються в об’єктивності такого тестування, Аді Сінгх упевнений, що MC-Bench може стати корисним інструментом для компаній-розробників ШІ.
«Рейтинг моделей у MC-Bench майже ідеально відповідає моєму особистому досвіду роботи з цими ШІ», — зазначає він.
Гейміфікація тестування штучного інтелекту відкриває нові можливості для його оцінки, роблячи процес зрозумілішим і доступнішим не лише для розробників, а й для звичайних користувачів.

