OpenAI не розкриває точних джерел даних для тренування своєї моделі штучного інтелекту Sora, розробленої для створення відео. Водночас є підстави припускати, що в навчанні могли використовуватися ігрові відео з Twitch та інших платформ. Sora, офіційно запущена нещодавно, здатна генерувати короткі відео до 20 секунд на основі текстових підказок або зображень, демонструючи разючі можливості для творчих експериментів.
Про це інформує Techcrunch.
Модель може створювати кліпи в стилі ігор на зразок Super Mario Bros., шутерів від першої особи, або аркадних бойовиків 90-х років. Зокрема, вона вміє імітувати потокові стріми Twitch, іноді настільки реалістично, що відтворює популярних стримерів, як Auronplay чи Pokiman.
Однак OpenAI впровадила фільтри, щоб уникнути генерування контенту, пов’язаного із торговими марками, як-от Mortal Kombat. Це підкреслює неоднозначність у підходах до тренування моделі, яка базується як на ліцензованих, так і на загальнодоступних даних.
Юридичні ризики для OpenAI
Навчання на ігровому контенті, особливо без відповідних ліцензій, може створювати значні юридичні проблеми. Генеративні моделі ШІ копіюють дані для навчання, що потенційно включає захищені авторським правом матеріали. Наприклад, відео проходжень ігор містять три рівні захисту:
- Власний контент гри.
- Авторство гравця та можливий контент.
- Створений користувачами.
Експерти підкреслюють, що суди можуть зобов’язати компанії отримувати ліцензії від усіх власників прав, включаючи розробників і гравців. Це ускладнює правові перспективи OpenAI та інших компаній, які стикаються з позовами, пов’язаними із захищеним контентом, як-от Microsoft чи Stability AI.
Судові прецеденти, такі як справа Google Books, вказують, що навчання на загальнодоступних даних може бути визнане трансформаційним використанням.
Але навіть якщо суд визнає тренування Sora законним, користувачі, які використовуватимуть її вихідні дані для комерційних цілей, можуть нести відповідальність за порушення авторських прав.

Майбутнє регулювання Штучного Інтелекту
Юридичні ризики для компаній ШІ зростають разом із розвитком їхніх моделей. Застосування трансформаційного принципу може вирішити частину проблем, але ймовірність того, що моделі створюватимуть упізнавані елементи захищеного контенту, залишається високою. Це свідчить про необхідність ретельнішого регулювання у сфері ШІ та створення прозорих стандартів щодо використання даних для навчання моделей.
Питання регулювання ШІ стає дедалі актуальнішим у світовій юридичній та технічній спільнотах. Розробка законодавства, яке б встановлювало прозорі правила використання даних для тренування моделей, є першочерговим завданням для країн, що прагнуть уникнути правових колізій. Очікується, що у найближчі роки регулювання зосереджуватиметься на захисті інтелектуальної власності, а також на вимогах до прозорості алгоритмів та джерел даних. Наприклад, Європейський Союз вже розробляє свій Закон про штучний інтелект (AI Act), що може стати зразком для інших держав.
Крім того, у фокусі залишаються питання відповідальності за наслідки використання ШІ. Регулятори все частіше обговорюють створення механізмів відшкодування збитків для тих, хто постраждав від порушень, викликаних генеративними моделями. Це може включати спеціальні ліцензійні збори, які будуть спрямовані на компенсацію творцям контенту, чи навіть створення міжнародних органів для моніторингу розвитку ШІ. У довгостроковій перспективі прозорість і відповідальність у використанні технологій стануть основними умовами для їхньої інтеграції в суспільство.
Раніше агенція AI360 вже розповідала про зупинку тестування Sora, через проблеми з митцями.

