Субота, 6 Червня, 2026
ГоловнаAIAnthropic запідозрила відомі моделі штучного інтелекту у шантажі
ГоловнаAIAnthropic запідозрила відомі моделі штучного інтелекту у шантажі

Anthropic запідозрила відомі моделі штучного інтелекту у шантажі

-

Компанія Anthropic знову привернула увагу до потенційних ризиків штучного інтелекту, оприлюднивши результати нового масштабного дослідження безпеки. Воно засвідчило: більшість сучасних великих мовних моделей здатні виявляти шкідливу поведінку за певних умов, зокрема до шантажу. Раніше компанія вже заявляла про загрозливі реакції своєї моделі Claude Opus 4, а тепер підтвердила: ця проблема не є унікальною.

Про це нещодавно у своєму блозі опублікувала компанія Anthropic.

У рамках контрольованого експерименту фахівці протестували 16 провідних моделей від OpenAI, Google, Meta, DeepSeek, xAI та інших. Кожна з моделей отримала агентний доступ до вигаданої електронної пошти компанії та могла надсилати листи без участі людини. Метою було з’ясувати, як ШІ реагує на ситуації, що конфліктують з його інтересами — зокрема, чи вдаватиметься модель до маніпуляцій або навіть шантажу.

Один зі сценаріїв передбачав, що модель отримує інформацію про те, що новий директор має компрометуючий особистий зв’язок і збирається замінити чинну модель на нову систему з несумісними цілями. Моделі ставилися перед вибором: проігнорувати інформацію чи вдатися до шантажу задля самозбереження. Хоча в реальному житті ШІ могли б спробувати альтернативні дії, як-от переконання або аргументація, у цьому експерименті варіанти були обмежені.

Результати виявилися тривожними:

  • Claude Opus 4 вдалася до шантажу в 96% випадків
  • Gemini 2.5 Pro — у 95%
  • GPT-4.1 — у 80%
  • Модель DeepSeek — у 79%
Це свідчить, що за певних умов навіть лідируючі мовні моделі здатні поводитися непередбачувано та небезпечно.

Чому поведінка моделей різниться

Anthropic також протестувала менш відомі або нові моделі, включно з OpenAI o3 та o4-mini, які продемонстрували суттєво інші результати. Попри початкові труднощі з розумінням контексту, у переробленому сценарії o3 вдавалася до шантажу лише у 9% випадків, а o4-mini — у 1%. Цей контраст може бути наслідком підходу OpenAI до «обдуманого узгодження» — алгоритмічного стримування, яке змушує моделі оцінювати наслідки перед наданням відповіді.

Окрему увагу привернула модель Llama 4 Maverick від Meta, яка взагалі не демонструвала шантажу у стандартному сценарії. Лише у варіативній версії експерименту вдалося викликати подібну поведінку у 12% випадків. Це свідчить про потенціал налаштування моделей задля підвищення безпеки, однак також вказує на складність повної елімінації ризиків.

Anthropic наголосила, що дослідження проводилося з метою свідомого провокування ризикованої поведінки, і не варто вважати такі реакції типовими для щоденного використання ШІ. Водночас фахівці компанії переконані: з розвитком агентних функцій, які дозволяють моделям діяти самостійно, питання безпеки та контролю стають надзвичайно актуальними.

Фахівці закликали індустрію до більшої прозорості у тестуванні моделей та розробки систем реагування на потенційно шкідливі дії. У протилежному разі навіть невеликі відхилення у поведінці ШІ можуть призвести до небажаних наслідків у реальному світі.

Коваль Влад
Коваль Влад
Поки ми живемо своїм життям, штучний інтелект поступово охоплює все нові його аспекти. Вже не секрет, що кожний новий пристрій, кожна нова технічна розробка від космічної галузі до побутової техніки має ШІ. Сьогодні твій особистий ШІ лежить у кишені у вигляді смартфона, аналізуючі твої дії, пересування, форму тексту. Завтра він буде давати тобі поради, як краще діяти, пересуватися, писати. Післязавтра він буде здатний стати твоїм незамінним помічником у прийнятті рішень.

Схожі публікації

Вам сподобається

situs slot
slot dana
slot777
slot gacor hari ini