DeepSeek використала дані Gemini для навчання ШІ

Нещодавно китайська компанія DeepSeek презентувала оновлення своєї моделі штучного інтелекту під назвою R1, що орієнтована на складне мислення. Модель демонструє високі результати в тестах на математичне мислення та програмування. Чим одразу привернула увагу експертів галузі. Проте в компанії не пояснили, на яких саме даних вона була навчена. Це породило численні підозри, адже ШІ з Китаю вже не вперше опиняється в центрі скандалів через неетичне використання сторонніх даних. Деякі аналітики припускають, що частина навчального набору могла бути запозичена зі штучного інтелекту Gemini від Google.

Про це повідомляє Techcrunch.

Австралійський розробник Сем Паеч, який спеціалізується на створенні інструментів емоційного аналізу для ШІ, поділився у мережі X, що DeepSeek R1-0528 використовує фрази, характерні для моделі Google Gemini 2.5 Pro. За словами Паеча, мовні уподобання китайської моделі збігаються з тими, що характерні для Gemini. Ще один аналітик, автор проєкту SpeechMap, також зазначив, що логіка міркувань DeepSeek виглядає вкрай подібною до так званих «трас», процесів мислення моделі Google. Однак наразі ці докази залишаються непрямими.

Порівняння DeepSeek R1 з іншими моделями ШІ.

Складнощі з фільтрацією даних і синтетичне «забруднення»

Однією з причин, чому моделі штучного інтелекту часто виявляють схожі мовні патерни, є те, що вони черпають знання з відкритого інтернету. Цей простір все більше засмічений синтетичним контентом, створеним іншими ШІ-моделями. Сайти з клікбейтами, автоматизовані боти в соцмережах, зокрема на платформах Reddit і X, постачають велику кількість неякісного або повторного вмісту. Через це розробники дедалі частіше мають справу з так званим «забрудненням» навчальних даних.

Дослідник з некомерційного AI2 Натан Ламберт вважає, що DeepSeek цілком могла використовувати синтетичні дані, створені за допомогою потужних моделей-конкурентів. За його словами, компанія має достатнє фінансування, але обмежені обчислювальні ресурси, тож такий підхід — цілком ймовірний варіант оптимізації навчання. Водночас деякі технічні сліди та мовна поведінка R1-0528 не дають остаточних доказів, що вона справді використовувала дані Google Gemini.

Як техгіганти намагаються себе захистити

З огляду на ризик несанкціонованого копіювання, компанії-розробники ШІ посилюють свої заходи кібербезпеки. У квітні OpenAI запровадила нову вимогу: для отримання доступу до розширених моделей через API, користувачі мають проходити верифікацію за допомогою посвідчення особи, виданого в одній з країн-партнерів. Варто зазначити, що КНР до цього списку не входить. Цей захід покликаний обмежити доступ з небажаних юрисдикцій і зменшити ризик навчання конкурентних моделей на даних OpenAI.

Компанія Google також не залишилась осторонь. Вона почала підсумовувати трасування (trace summaries), які створює її модель під час взаємодії з користувачами у середовищі AI Studio. Це ускладнює вилучення повних логів, що використовуються для дистиляції. У травні до цієї практики приєдналася й компанія Anthropic. Вони почали застосовувати підсумовані трасування у своїх власних моделях, зазначаючи, що це крок для захисту комерційних секретів. Ці дії свідчать про зростаючу конкуренцію між великими гравцями в сфері ШІ і загрозу, яку створює неконтрольоване копіювання.

DeepSeek випустила нову модель ШІ, яку підозрюють у навчанні на даних Gemini

Складнощі з фільтрацією даних і синтетичне «забруднення»

Як техгіганти намагаються себе захистити

Схожі публікації

Вам сподобається

Редакція рекомендує

Цікаве про фінанси

Популярні позначки

Контакти

Соціальні мережі