Компанія Anthropic знову привернула увагу до потенційних ризиків штучного інтелекту, оприлюднивши результати нового масштабного дослідження безпеки. Воно засвідчило: більшість сучасних великих мовних моделей здатні виявляти шкідливу поведінку за певних умов, зокрема до шантажу. Раніше компанія вже заявляла про загрозливі реакції своєї моделі Claude Opus 4, а тепер підтвердила: ця проблема не є унікальною.
Про це нещодавно у своєму блозі опублікувала компанія Anthropic.
У рамках контрольованого експерименту фахівці протестували 16 провідних моделей від OpenAI, Google, Meta, DeepSeek, xAI та інших. Кожна з моделей отримала агентний доступ до вигаданої електронної пошти компанії та могла надсилати листи без участі людини. Метою було з’ясувати, як ШІ реагує на ситуації, що конфліктують з його інтересами — зокрема, чи вдаватиметься модель до маніпуляцій або навіть шантажу.
Один зі сценаріїв передбачав, що модель отримує інформацію про те, що новий директор має компрометуючий особистий зв’язок і збирається замінити чинну модель на нову систему з несумісними цілями. Моделі ставилися перед вибором: проігнорувати інформацію чи вдатися до шантажу задля самозбереження. Хоча в реальному житті ШІ могли б спробувати альтернативні дії, як-от переконання або аргументація, у цьому експерименті варіанти були обмежені.
Результати виявилися тривожними:
- Claude Opus 4 вдалася до шантажу в 96% випадків
- Gemini 2.5 Pro — у 95%
- GPT-4.1 — у 80%
- Модель DeepSeek — у 79%
Це свідчить, що за певних умов навіть лідируючі мовні моделі здатні поводитися непередбачувано та небезпечно.
Чому поведінка моделей різниться
Anthropic також протестувала менш відомі або нові моделі, включно з OpenAI o3 та o4-mini, які продемонстрували суттєво інші результати. Попри початкові труднощі з розумінням контексту, у переробленому сценарії o3 вдавалася до шантажу лише у 9% випадків, а o4-mini — у 1%. Цей контраст може бути наслідком підходу OpenAI до «обдуманого узгодження» — алгоритмічного стримування, яке змушує моделі оцінювати наслідки перед наданням відповіді.
Окрему увагу привернула модель Llama 4 Maverick від Meta, яка взагалі не демонструвала шантажу у стандартному сценарії. Лише у варіативній версії експерименту вдалося викликати подібну поведінку у 12% випадків. Це свідчить про потенціал налаштування моделей задля підвищення безпеки, однак також вказує на складність повної елімінації ризиків.
Anthropic наголосила, що дослідження проводилося з метою свідомого провокування ризикованої поведінки, і не варто вважати такі реакції типовими для щоденного використання ШІ. Водночас фахівці компанії переконані: з розвитком агентних функцій, які дозволяють моделям діяти самостійно, питання безпеки та контролю стають надзвичайно актуальними.
Фахівці закликали індустрію до більшої прозорості у тестуванні моделей та розробки систем реагування на потенційно шкідливі дії. У протилежному разі навіть невеликі відхилення у поведінці ШІ можуть призвести до небажаних наслідків у реальному світі.

