Команди дослідників з Cohere, Стенфорда, MIT та AI2 заявили про серйозні порушення з боку LM Arena. Оганізації, яка курує популярну платформу оцінки чат-ботів Chatbot Arena. За їхніми словами, LM Arena надала перевагу низці впливових компаній, серед яких:
- OpenAI
- Meta
- Amazon
Їм нібито дозволили проводити приватне тестування моделей, після чого публікували лише результати найкращих варіантів. Це створювало ілюзію домінування цих компаній у рейтингах, тоді як менш відомим фірмам така можливість не надавалася.
Про це повідомляє Techcrunch.
Віце-президентка з досліджень ШІ у Cohere Сара Хукер назвала це «гейміфікацією». Також вона підкреслює, що доступ до приватного тестування був вибірковим і нерівномірним.
Chatbot Arena була створена як академічний експеримент у Каліфорнійському університеті Берклі у 2023 році. Її принцип — порівнювати відповіді двох різних ШІ-моделей у форматі «битви», де користувачі голосують за кращу. Від кількості виграних битв залежить місце моделі у загальному рейтингу. Але, як зазначають автори дослідження, саме це голосування стало об’єктом маніпуляцій.
Зокрема, Meta начебто протестувала 27 моделей у приватному режимі між січнем і березнем, обравши для публікації лише найуспішнішу. У результаті їхня Llama 4 отримала високі оцінки, хоча фактично йшлося лише про один варіант із майже трьох десятків.
Відповідь LM Arena та критика дослідницьких методів
Професор Іон Стойка, співзасновник LM Arena, заперечив звинувачення, назвавши дослідження «неточним» і таким, що ґрунтується на «сумнівному аналізі». У відповіді TechCrunch організація заявила, що всі охочі можуть подавати моделі до тестування. А різниця в кількості тестів — результат активності самих компаній.
Однак дослідники наполягають, що LM Arena не забезпечила рівний доступ до системи. У відповідь організація звернула увагу на свій блог. Де зазначила, що моделі менших лабораторій частіше беруть участь у битвах, ніж випливає з аналізу авторів дослідження. Водночас вони підтвердили, що переглянуть алгоритм частоти участі моделей у поєдинках, аби зробити систему більш прозорою.
Дослідження базувалося, серед іншого, на «самоідентифікації» моделей, автори кілька разів питали у самих ШІ, яку компанію вони представляють. Цей підхід не є безпомилковим, але, за словами Хукер, навіть після попереднього обговорення з LM Arena, організація не заперечила озвучені висновки.
Це вже не перший випадок, коли організація опиняється під шквалом критики. Раніше редакція сайту AI360 писали про те, де Meta була викрита в тому, що представила спеціально оптимізовану для Chatbot Arena версію Llama 4, яка показала вражаючі результати.

