У дослідженні, проведеному Google DeepMind спільно з Університетським коледжем Лондона, вчені з’ясували, що великі мовні моделі (LLM), можуть вагатися у своїх відповідях. Дослідники виявили, що навіть коли моделі надають правильну відповідь, вони можуть відмовитися від неї. Особливо якщо отримають вплив ззовні — зокрема, контраргумент. Це викликає занепокоєння, особливо враховуючи, що LLM активно використовуються в чутливих галузях. Від охорони здоров’я до юриспруденції.
Про це з нами поділився в своїй статті Techxplore.
LLM — це системи штучного інтелекту, які вміють генерувати й аналізувати текст, імітуючи людське мовлення. Вони впливають на рішення у фінансових, медичних та інших критично важливих сферах. Через це від них очікують не лише точності, а й стабільності. Та, як виявилось, саме ця стабільність і може бути поставлена під сумнів у динамічному середовищі.
У дослідженні, опублікованому на платформі препринтів arXiv, команда науковців провела серію тестів, щоб перевірити, як ШІ реагує на поради ззовні. Моделі, яких умовно назвали «магістрами мовлення», отримували бінарне запитання, відповідали на нього, а згодом отримували пораду від іншої моделі. Порада могла бути як підтримуючою, так і суперечливою або нейтральною.
Після цього «магістру мовлення» давали можливість змінити свою відповідь. Іноді йому показували попередню відповідь, іноді — ні. Результати виявили цікаву поведінкову особливість: коли модель бачила свою першу відповідь, вона рідше змінювала її. Тобто присутність власного сліду змушувала модель бути впевненішою — навіть коли порада суперечила її первинному рішенню.
Алгоритм під впливом: впевненість падає при запереченні
Однак ще цікавішими виявилися результати, коли модель отримувала поради, що суперечили її відповіді. У таких випадках ШІ значно частіше змінював свою думку, ніж тоді, коли порада була згодна з його початковим рішенням. Це означає, що LLM-моделі більш схильні до впливу, ніж раніше вважалося.
Ця динаміка підтверджувалася на прикладі різних моделей, включаючи GPT-4o, o1-preview і Gemma 3. Усі вони демонстрували однакову поведінку: суперечливі поради змушували моделі сумніватися, навіть якщо їхня перша відповідь була вірною. Дослідники назвали це «упередженням підтримки» — коли моделі більше довіряють інформації, яка підсилює вже зроблений вибір.
У коментарі до дослідження автори наголосили, що таке відхилення від раціонального мислення створює ризики при розгортанні LLM у критично важливих сферах. Хоча моделі й інтегрують нову інформацію, вони роблять це не завжди оптимально. Їхні рішення схильні до впливу останнього аргументу або зовнішньої думки — навіть якщо вона некоректна. Це доводить, що потужні ШІ-системи не позбавлені «людських» упереджень.
Така поведінка вказує на те, що в майбутньому слід розробляти моделі, які не лише вміють робити висновки, а й більш стійкі до помилкового впливу. Це особливо важливо, якщо врахувати, як часто люди взаємодіють із LLM у форматі багатокрокових діалогів, де кожне наступне повідомлення змінює контекст і, відповідно, — рішення моделі.
Упередженість моделей — виклик для творців ШІ
Насамкінець дослідники підкреслюють: ШІ-моделі не є нейтральними інструментами. Вони мають структуру «пам’яті» та реакції, яка робить їх вразливими до маніпуляцій. Чим досконаліше ми розумітимемо ці внутрішні механізми, тим краще зможемо створити надійні й безпечні інтелектуальні системи.
У майбутньому алгоритми, що керують поведінкою LLM, мають не лише враховувати зовнішні впливи, а й протистояти їм, зберігаючи баланс між відкритістю до нових даних і стабільністю власних переконань. Без цього — жодна технологія, навіть найрозумніша, не буде по-справжньому надійною.

