ШІ не зміг скласти українське ЗНО: моделі провалили тест

В Україні розробили унікальний тестовий інструмент для оцінки можливостей штучного інтелекту — ZNOVision. Його створили вітчизняні дослідники, щоб перевірити, чи можуть сучасні моделі ШІ впоратись із завданнями на рівні випускного шкільного іспиту. Система включає тести з 13 предметів на основі українського ЗНО, що охоплюють широкий спектр дисциплін від історії до фізики.

Про це на сайті arxiv.org розповідають українські дослідники.

Особливість тесту полягає в тому, що він багатоформатний: завдання містять не лише текстові питання, а й візуальні елементи, таблиці та зображення. Таким чином, ZNOVision став першим в Україні масштабним іспитом, що ставить штучний інтелект у рівні умови з випускниками шкіл.

Попри популярність та потужність сучасних мовних моделей, жодна з них не змогла набрати прохідний бал у 70%. Найкращий результат показала модель Gemini Pro — 67,5%, що все одно нижче межі складання тесту. Натомість GPT-4o, яка позиціонується як одна з найпросунутіших моделей на ринку, спромоглася набрати лише 47% правильних відповідей.

Розробники зазначили, що випробовувані системи виявили низьку стійкість до складних, багатошарових завдань, зокрема тих, що вимагають аналітики візуальної інформації або глибокого розуміння української мови.

Найбільші труднощі викликали візуальні завдання

Основні помилки моделей виникали в завданнях, які містили графіки, схеми чи інші зображення. Штучний інтелект не впізнавав українські слова на картинках, плутав фізичні одиниці та математичні позначення. Деякі моделі ШІ пропускали частину умов задач або давали відповідь, не зважаючи на повний контекст.

Це вказує на обмеження сучасних моделей, які хоч і демонструють високі результати в генерації тексту, але все ще мають складнощі з міжформатним аналізом, особливо коли йдеться про поєднання мови, логіки та візуального контенту.

ZNOVision не лише продемонстрував слабкі місця ШІ, але й відкрив перспективу для створення більш адаптованих тестів, які могли б використовуватись у майбутньому для глибшого аналізу когнітивних можливостей моделей. Українські дослідники довели, що мовні моделі не можуть повноцінно конкурувати зі школярами, принаймні у форматі національного іспиту.

Результати цього дослідження можуть стати новим етапом у міжнародному обговоренні обмежень і потенціалу ШІ. Крім того, ZNOVision підкреслює важливість локалізованих інструментів для тестування інтелектуальних систем у національному контексті.

Український ЗНО виявився не під силу найкращим моделям ШІ

Найбільші труднощі викликали візуальні завдання

Схожі публікації

Вам сподобається

Редакція рекомендує

Цікаве про фінанси

Популярні позначки

Контакти

Соціальні мережі