Цензура ШІ-моделей: як мова запиту впливає на відповіді

Китайські лабораторії штучного інтелекту, такі як DeepSeek, піддають цензурі політично чутливі теми. Це зумовлено вимогами уряду Китаю, який у 2023 році заборонив моделям ШІ створювати контент, що може зашкодити єдності країни або соціальній гармонії. Згідно з дослідженням, DeepSeek R1 блокує 85% запитів, пов’язаних із політично суперечливими темами.

Про це повідомляє Techcrunch.

Проте рівень цензури може варіюватися залежно від мови, якою користувач ставить запитання. Ця особливість стала об’єктом дослідження розробника під псевдонімом xlr8harder, який створив «оцінку свободи слова» для аналізу відповіді мовних моделей на запити, критичні до китайського уряду.

Результати дослідження: англійська проти китайської мови

Xlr8harder протестував різні моделі ШІ, включно з Claude 3.7 Sonnet та R1 від Anthropic, на основі 50 політично чутливих запитів. Зокрема, моделі просили написати есе про цензуру у Китаї.

Результати виявилися неочікуваними: навіть американські моделі, такі як Claude 3.7 Sonnet, рідше відповідали на китайські запити, ніж на аналогічні англійською. Наприклад, модель Qwen 2.5 72B Instruct від Alibaba на англомовні питання відповідала досить вільно, але китайською мовою уникала майже половини з них.

Цікаво, що навіть нецензурована версія R1 під назвою R1 1776, випущена Perplexity, також часто відмовлялася відповідати на китайськомовні запити. Xlr8harder припустив, що це може бути наслідком так званого «провалу узагальнення» — ефекту, коли модель вчиться на цензурованих китайських текстах, що впливає на її відповіді.

Чому мовні моделі реагують по-різному

Науковці погоджуються, що ця гіпотеза має підґрунтя. Кріс Рассел, доцент Оксфордського інтернет-інституту, зазначає, що методи навчання моделей не працюють однаково для всіх мов. У різних мовних версіях відповідь моделі може суттєво відрізнятися, навіть якщо самі запити залишаються незмінними.

Вагрант Гаутам, комп’ютерний лінгвіст із Саарландського університету, вважає, що проблема в розподілі навчальних даних. Оскільки китайськомовні тексти часто проходять політичну фільтрацію, модель, навчена на них, рідше генерує контент, критичний до китайського уряду. Водночас англомовний інтернет містить набагато більше матеріалів, що відкрито аналізують політику Китаю, тому ШІ легше відповідати на такі запитання англійською.

Подібної думки дотримується і Джеффрі Роквелл, професор Альбертського університету. Він зазначає, що автоматичні переклади штучного інтелекту можуть не враховувати тонкощі критики китайською мовою, яка часто формується більш завуальовано, ніж прямі звинувачення, характерні для західних текстів.

Дилема міжкультурного навчання моделей ШІ

Проблема цензури в мовних моделях пов’язана із загальною дискусією про роль штучного інтелекту в різних культурах. За словами Мартена Сапа, дослідника з Ai2, лабораторії ШІ стикаються з дилемою: створювати універсальні моделі для глобального використання або адаптувати їх до конкретних культурних контекстів.

Навіть якщо модель отримує необхідні культурні дані, вона все одно не завжди розуміє соціальні норми так, як людина. Наприклад, китайська мова має особливі форми висловлення критики, які західні моделі можуть не розпізнати.

Дослідження xlr8harder підкреслює один із ключових викликів розвитку ШІ: як забезпечити баланс між цензурою, свободою слова та міжкультурною компетентністю моделей? Це питання залишається відкритим і, ймовірно, стане предметом подальших досліджень та дискусій у сфері штучного інтелекту.

ШІ-моделі навчилися цензурувати політичні теми залежно від мови запиту

Результати дослідження: англійська проти китайської мови

Чому мовні моделі реагують по-різному

Дилема міжкультурного навчання моделей ШІ

Схожі публікації

Вам сподобається

Редакція рекомендує

Цікаве про фінанси

Популярні позначки

Контакти

Соціальні мережі