Meta потрапила в центр гучного скандалу. Це сталося після того, коли стало відомо, що вона просувала експериментальну версію своєї мовної моделі Llama 4 Maverick у рейтингу LM Arena. LM Arena – це один з найвідоміших краудсорсингових тестів для оцінки штучного інтелекту. Завдяки спеціальним оптимізаціям модель демонструвала надзвичайно високі результати, однак виявилося, що це був неофіційний варіант, спеціально налаштований на перемогу в тестах.
Про це інформує Techcrunch.
Цей факт обурив спільноту й змусив організаторів LM Arena публічно вибачитися. Також внести зміни в правила платформи та включити в рейтинг справжню немодифіковану версію моделі — без штучних покращень. Результат не забарився: оригінальний Maverick стрімко втратив позиції.
Оновлена версія моделі під назвою «Llama-4-Maverick-17B-128E-Instruct» виявилася значно слабшою в порівнянні з іншими гігантами ринку. А саме таких як GPT-4o від OpenAI, Claude 3.5 Sonnet від Anthropic та Gemini 1.5 Pro від Google. Іронічно, але більшість цих моделей з’явилися ще кілька місяців тому, тоді як “свіжий” Maverick не зміг нав’язати їм гідну конкуренцію без спеціального “тюнінгу“.
Це показало, що експериментальна версія “Llama-4-Maverick-03-26-Experimental” була навмисне оптимізована для ведення діалогів. Це дозволяло їй блискуче проходити саме ті завдання, які тестує LM Arena. Але така тактика викликала запитання: чи не вводить вона в оману розробників і користувачів?
Meta пояснює: ми просто експериментуємо
Meta не заперечує, що активно працює над різними варіантами своєї моделі. У коментарі про цей випадок компанія заявила, що спеціально випробовує модифікації Llama 4, орієнтовані на покращене спілкування з користувачем. Представник компанії зазначив, що тепер офіційна версія з відкритим кодом доступна для спільноти, і Meta з цікавістю спостерігатиме, як розробники адаптують її до власних потреб.
Компанія також додала, що чекає на зворотний зв’язок і заохочує творчі експерименти зі сторони розробників. Проте скандал навколо прозорості залишив неприємний осад у професійному середовищі.
Цей інцидент лише підкріпив побоювання, які вже давно висловлювали дослідники штучного інтелекту – краудсорсинговими бенчмарками можна легко маніпулювати. Оптимізація під конкретний тест спотворює реальну ефективність моделі в живому застосуванні. Саме це і створює серйозні ризики для споживачів, розробників та навіть бізнесу.
Після скандалу LM Arena заявила про посилення політик щодо перевірки моделей і зобов’язалася дотримуватися більшої прозорості.

