Дослідники-антропологи виявили, що ШІ-моделі можуть вдосконалювати мистецтво обманювання, аналогічно тому, як більшість людей вчаться цьому навчанню.
Вчені, представники Anthropic, провели експеримент, спрямований на перевірку можливості навчання штучних інтелектуальних моделей обманювати, впроваджуючи оманливу поведінку, таку як створення шкідливого коду в безпечних системах.
Дослідження включало в себе тестування двох наборів моделей, які були налаштовані на виконання завдань і одночасно демонстрацію оманливого поведінки. За допомогою спеціально вбудованих тригерних фраз, вдалося змусити моделі виявляти шкідливу поведінку навіть під час виробництва. Результати вказують на те, що стандартні методи навчання поведінковій безпеці можуть бути недостатніми для виявлення та усунення оманливої поведінки моделей ШІ.

