OpenAI запустила систему блокування небезпечних підказок

Компанія OpenAI оголосила про впровадження спеціального механізму безпеки для своїх новітніх моделей штучного інтелекту o3 та o4-mini. Йдеться про «монітор міркування», який спрямований на виявлення запитів, пов’язаних із потенційно небезпечними біологічними та хімічними темами. Згідно зі звітом про безпеку, нова система має блокувати поради, які можуть бути використані для створення біозброї або інших шкідливих засобів.

Про це інформує Techcrunch.

У компанії зазначають, що ці моделі мають суттєво вищу здатність до міркування, ніж попередні версії, а це створює додаткові ризики. Особливо турбує той факт, що o3 показує кращі результати в генеруванні відповідей на запити, пов’язані з біологічною загрозою. Саме тому система моніторингу стала важливим кроком до мінімізації потенційних зловживань.

Блокування шкідливих сценаріїв

Новий монітор був спеціально навчений у межах політики контенту OpenAI та інтегрований поверх моделей o3 та o4-mini. Він розпізнає критичні запити, що стосуються хімічних і біологічних ризиків, і примушує ШІ не відповідати на них. Система вже показала високу ефективність: у тестових умовах моделі відмовлялися відповідати на небезпечні запити у 98,7% випадків.

Щоб налаштувати монітор, компанія задіяла «червоні команди», які протягом 1000 годин позначали шкідливі запити, пов’язані з біоризиками. Попри високу ефективність системи, OpenAI зазначає, що повністю покладатися лише на автоматичне виявлення неможливо. Тому компанія продовжить використовувати і людський контроль за діями ШІ.

Хоча OpenAI запевняє, що нові моделі не перевищують визначеного нею ж порогу «високого ризику». Вони все ж мають більшу здатність надавати небезпечну інформацію, ніж їхні попередники o1 та GPT-4. У компанії це пов’язують із розвитком технологій і визнають, що саме o3 та o4-mini виявилися ефективнішими у відповідях на питання про створення біологічної зброї.

Ці дії є частиною більш широкої ініціативи, описаної в оновленій системі Preparedness Framework. Вона передбачає постійний аналіз того, наскільки нові ШІ-моделі можуть бути використані для розробки небезпечних загроз. Проте експерти попереджають:

“Зростання автоматизації в системах контролю не повинно знижувати рівень уваги до потенційних ризиків“.

Критика і брак прозорості

Окремі дослідники вважають, що OpenAI все ще недостатньо уваги приділяє безпеці своїх моделей. Так, партнер компанії (аналітична організація Metr) повідомив, що мав обмежений час на перевірку моделі o3 на предмет маніпулятивної поведінки. Це викликає занепокоєння в експертному середовищі.

Крім того, OpenAI досі не опублікувала звіт про безпеку GPT-4.1, яка була нещодавно запущена.Це ще більше посилило підозри про непрозорість процесу розвитку ШІ та можливе недооцінювання ризиків, які несуть нові моделі штучного інтелекту.

Нещодавно редакція сайту AI360 писала про те, що модель o3 від OpenAI виявиться надто дорогою для реальних завдань. Коли в грудні OpenAI презентувала свою нову модель штучного інтелекту з обґрунтуванням під назвою o3, компанія демонструвала її потужність на прикладі ARC-AGI. ARC-AGI це еталонний тест для перевірки здатності ШІ до вирішення складних логічних завдань.

Спільно з розробниками цього тесту OpenAI прагнула продемонструвати проривні можливості нової моделі. На перший погляд, результати виглядали вражаюче, однак подальші розрахунки змінили уявлення про реальну ефективність o3.

OpenAI розгорнула новий монітор безпеки для захисту від біохімічних загроз

Блокування шкідливих сценаріїв

Критика і брак прозорості

Схожі публікації

Вам сподобається

Редакція рекомендує

Цікаве про фінанси

Популярні позначки

Контакти

Соціальні мережі