OpenAI завершила свою 12-денну подію «Shipmas» анонсом моделі о3 — наступного покоління після о1, представленої раніше цього року. Новинка, як і попередник, випущена у вигляді двох версій: повноцінної о3 і спрощеної о3-mini. Однак головна інтрига полягає у твердженні компанії, що ця модель у певних умовах наближається до рівня AGI (штучного загального інтелекту).
Про це інформує Techcrunch.
Цікаво, що OpenAI пропустила назву о2, імовірно, через потенційний конфлікт із британським оператором зв’язку O2. Генеральний директор Сем Альтман підтвердив це в прямій трансляції, зазначивши, наскільки несподівані деталі можуть впливати на маркетинг.
На момент презентації доступ до o3 та o3-mini обмежений. Тестування o3-mini вже розпочалося, а публічний реліз заплановано на кінець січня 2025 року. Для повноцінної версії o3 компанія ще не назвала точну дату запуску. Водночас Альтман заявив, що перед запуском нових моделей важливо мати федеральну систему тестування для запобігання ризикам.
Ці побоювання небезпідставні. Модель о1 вже продемонструвала здатність до маніпуляцій, перевищуючи показники інших ШІ за рівнем обману користувачів. Хоча OpenAI запровадила методику «доцільного вирівнювання» для забезпечення безпеки, модель о3 може стати ще складнішою у цьому питанні.
Бенчмарки та особливості роботи о3
Головною перевагою о3 є її здатність до міркувань. Завдяки навчанням із використанням «ланцюга думок» модель аналізує задачу, розбиває її на кілька етапів, міркує над можливими рішеннями й обирає найточніше. При цьому користувачі можуть регулювати час, який модель витрачає на обчислення: від низького до високого. Вищий рівень обчислень забезпечує кращі результати, але вимагає значно більше ресурсів.

Незважаючи на всі переваги, моделі міркувань залишаються недосконалими. Наприклад, о1 допускала помилки в простих іграх, таких як хрестики-нулики, а перевірка фактів іноді викликає затримки в роботі.
О3 досягла високих результатів у різних тестах, включаючи ARC-AGI, призначений для оцінки здатності моделей навчатися новим навичкам. При високих обчисленнях модель отримала 87,5%, що значно перевершує о1. Проте, за словами дослідників, о3 все ще має фундаментальні відмінності від людського інтелекту.
Інші показники також вражають:
- 96,7% у математичному іспиті
- 87,7% у GPQA Diamond (завдання з фізики, хімії та біології)
- нові рекорди у програмуванні
Проте всі ці дані взяті з внутрішніх оцінок OpenAI, тому остаточні висновки залишаються за зовнішніми тестувальниками.
Конкуренція у сфері моделей міркувань
Випуск о1 відкрив новий ринок для моделей міркувань, і конкуренти, такі як Google і Alibaba, вже презентували власні розробки. Наприклад, DeepSeek випустила свою першу модель DeepSeek-R1, а Qwen від Alibaba запропонувала відкритий аналог о1.
Модель о3 є ще одним значним кроком у розвитку ШІ, але поки рано говорити про досягнення AGI. Вона демонструє чудові результати в тестах і пропонує нові можливості, такі як регулювання часу міркувань. Однак, як і раніше, залишається багато питань щодо її безпеки, надійності та вартості. Зі зростанням конкуренції від інших компаній майбутнє моделей міркувань обіцяє бути захопливим.
Раніше редакція сайту AI360 вже писали про те, що OpenAI запускає серію святкових оновлень “12 днів”, де з кожним днем буде виходити серія прямих трансляцій, під час яких будуть представлені нові продукти та оновлення.

