Організація Creative Commons, яка відома своєю роллю в створенні гнучких ліцензій для захисту авторських прав у відкритому доступі, оголосила про запуск амбітної ініціативи. Це новий проєкт, що отримав назву CC Signals. Він має на меті допомогти авторам і власникам даних регулювати, як їхній контент може використовуватись штучним інтелектом. Зокрема і під час тренування мовних моделей. Ініціатива спрямована на формування прозорих правил обміну цифровими даними в умовах швидкої еволюції ШІ.
Про це повідомляє Techcrunch.
Цей інструмент дозволить розробникам наборів даних чітко вказувати умови доступу для машинного зчитування та повторного використання. Таким чином, організація намагається знайти баланс між відкритістю інтернету та правом власників контенту захищати свої ресурси від неконтрольованого парсингу.
Проблема безконтрольного збору даних
У своєму блозі Creative Commons попереджає, що нинішня ситуація з масовим видобутком даних може зруйнувати принципи відкритого інтернету. Існує ризик, що дедалі більше ресурсів почнуть обмежувати доступ до інформації. Або ж переводити її за платні стіни, щоби вберегти вміст від використання в ШІ-сервісах без згоди авторів. Саме цю загрозу і покликані вирішити нові “сигнали”. Правові й технічні маркери, які вказують на допустимість або заборону використання матеріалів для штучного інтелекту.
Проєкт CC Signals прагне створити універсальний стандарт, що міг би впроваджуватися одночасно на рівні сайтів, сервісів і користувачів. Тим самим забезпечуючи прозорий обмін інформацією між тими, хто володіє даними, та тими, хто навчає на них алгоритми.
Інтерес до подібних рішень стрімко зростає. Компанії все частіше змінюють свої умови обслуговування. Чим пояснюють користувачам, яким чином дані можуть бути залучені до навчання ШІ, або зовсім блокують машинний доступ. Наприклад, платформа X (раніше Twitter) дозволила стороннім сервісам використовувати публічні пости для навчання моделей, але згодом відмовилася від цієї практики.
Reddit, у свою чергу, використовує файл robots.txt, щоб обмежити доступ ботам до свого сайту. Cloudflare пішла ще далі — компанія експериментує з інструментами, які або ускладнюють парсинг для ШІ, або дозволяють стягувати за це плату. Тим часом незалежні розробники створюють додатки, що гальмують роботу несанкціонованих сканерів та виснажують їхні ресурси.
Прозорість і відкритість — у центрі концепції
На відміну від підходів блокування, проєкт CC Signals пропонує конструктивну альтернативу. Йдеться про набір юридичних і технічних засобів, які матимуть не лише правову силу, а й моральний авторитет — так само, як і ліцензії Creative Commons, що сьогодні використовуються для мільярдів цифрових робіт у мережі. За словами генеральної директорки організації Анни Тумадоттір, “сигнали” мають стати основою нової відкритої екосистеми для штучного інтелекту.
Наразі проєкт перебуває на початковій стадії. Його перші версії вже опубліковані на сайті Creative Commons і в репозиторії GitHub. Організація готується до альфа-тестування, запланованого на листопад 2025 року, та активно збирає зворотний зв’язок від спільноти. Крім того, найближчим часом відбудеться серія відкритих зустрічей, на яких усі охочі зможуть поставити запитання та поділитися своїми пропозиціями.

