DeepSeek конкурент OpenAI: нова ШІ-модель з відкритим кодом

Китайський стартап DeepSeek стрімко увірвався в індустрію штучного інтелекту, представивши свою нову генеративну модель DeepSeek-R1. Вона позиціонується як серйозний конкурент провідним рішенням, таким як OpenAI o1, і вже встигла викликати значний резонанс у технологічному світі. Головна особливість DeepSeek-R1 — відкритий вихідний код та висока економічна ефективність, що робить її доступнішою у порівнянні з багатьма комерційними ШІ-моделями.

Як китайському стартапу вдалося так швидко увірватися в лідери? Хто стоїть за DeepSeek і чи справді їхня модель може скласти серйозну конкуренцію американським технологіям? Видання AI360 розповість в цій статті.

Про компанію DeepSeek

DeepSeek — китайський стартап, який стрімко увірвався в глобальну індустрію штучного інтелекту, ставши несподіваним конкурентом провідним американським технологічним компаніям. Попри те, що ще донедавна ця компанія була маловідомою, її проривна ШІ-модель DeepSeek-R1 уже встигла наробити галасу на ринку.

Головна особливість DeepSeek — це відкритий підхід до розробки. В той час, як OpenAI та Anthropic впроваджують жорсткі обмеження на свої моделі, DeepSeek зробив ставку на відкритий код та економічну ефективність. Це привернуло увагу розробників, науковців та стартапів, які шукають доступні й потужні ШІ-рішення.

Заснування стартапу

DeepSeek, з’явився у 2023 році завдяки підприємцю Ляну Веньфену. Попри те, що більшість провідних розробок у галузі ШІ в Китаї традиційно підтримуються технологічними гігантами на кшталт Baidu, Alibaba чи ByteDance, DeepSeek став винятком. Його запуск відбувся завдяки фінансовій підтримці хедж-фонду High-Flyer, який Лян заснував ще у 2015 році.

Лян Веньфен заробив свій капітал, використовуючи алгоритми та штучний інтелект для аналізу фондового ринку. Його хедж-фонд швидко набув популярності, залучивши понад 100 мільярдів юанів (близько 15 мільярдів доларів), а його успіх дозволив компанії створювати потужні обчислювальні кластери для аналізу фінансових даних. Проте на хвилі глобального ажіотажу навколо штучного інтелекту та після успіху ChatGPT від OpenAI, Лян вирішив переорієнтувати свої ресурси та запустити DeepSeek як незалежну лабораторію, що зосередилася на розробці передових мовних моделей.

Важливою перевагою стартапу стало те, що Лян ще до введення експортних обмежень США почав активно скуповувати потужні графічні процесори Nvidia, необхідні для навчання моделей штучного інтелекту. Це дало DeepSeek можливість комбінувати їх із доступнішими, менш продуктивними чипами, які Китай все ще міг імпортувати. Такий стратегічний запас технологій став ключем до успішного запуску лабораторії.

ШІ-модель DeepSeek-R1

У листопаді DeepSeek заявила про досягнення продуктивності, що перевершує передову модель OpenAI o1. Спочатку компанія випустила обмежену версію R1-lite-preview, але з виходом повноцінної DeepSeek-R1 минулого тижня світ побачив справжній прорив. Найцікавішою особливістю стало свідоме відхилення від традиційного підходу керованого тонкого налаштування (SFT), який зазвичай використовується для навчання мовних моделей (LLM).

SFT є стандартною методикою, що передбачає навчання моделей на спеціально підготовлених наборах даних, допомагаючи їм засвоїти покрокове міркування, відоме як “ланцюг думок” (CoT). Однак DeepSeek вирішила повністю відмовитися від цього підходу та зосередилася на навчанні з підкріпленням (RL). Як зазначає серійний інвестор і CEO блокчейн-компанії Pastel Network Джеффрі Емануель, компанія змогла випередити Anthropic у застосуванні CoT та стала однією з небагатьох, окрім OpenAI, хто реалізував цю технологію у великих масштабах.

На відміну від OpenAI, яка обмежує доступ до низькорівневої інформації про свої моделі та не розкриває їхні ваги, DeepSeek зробила R1 повністю відкритою та надала детальну технічну документацію. Будь-хто може ознайомитися з їхнім кодом та вивчити принципи роботи моделі.

DeepSeek-R1 досягла значного прориву у створенні моделей, здатних до автономного міркування. Проект DeepSeek-R1-Zero продемонстрував, що чисте навчання з підкріпленням у поєднанні з продуманими функціями винагороди дозволяє моделі самостійно розвивати складні логічні навички. Це означає, що модель не просто вирішує завдання, а й органічно формує логічні зв’язки, переглядає свої висновки та виділяє додаткові ресурси на складніші проблеми.

Ще однією важливою інновацією DeepSeek стало вирішення проблеми мовленнєвої узгодженості. Раніше мовні моделі, що використовували CoT, часто видавали неоднорідний або граматично неправильний текст. DeepSeek змогла усунути цей недолік, додавши механізм винагороди за узгодженість мови в процесі навчання, що призвело до значного покращення якості відповідей.

Продуктивність та вплив на ринок

DeepSeek-R1 демонструє вражаючі результати на різних тестах. На математичному конкурсі AIME 2024 модель досягла 79,8% точності, що відповідає рівню OpenAI o1. На тесті MATH-500 вона показала 97,3%, а в змаганнях з програмування Codeforces — 96,3 процентиля. При цьому навіть компактна версія з 14 мільярдами параметрів випереджає багато більших моделей, що підтверджує важливість ефективних методів навчання.

Втім, DeepSeek-R1 стала не лише технологічним проривом, а й першим китайським ШІ-продуктом, що отримав значну популярність на Заході. Природно, користувачі одразу почали перевіряти її на цензуровані теми, як-от події на площі Тяньаньмень чи статус Тайваню. Очікувано, що DeepSeek дотримується політики китайського уряду, що стало одним із головних предметів дискусій навколо моделі.

Запуск DeepSeek-R1 змусив багатьох аналітиків переглянути уявлення про необхідні ресурси для створення конкурентоспроможних ШІ-моделей. Financial Times зазначає, що успіх китайського стартапу викликав сумніви щодо доцільності інвестування десятків мільярдів доларів у будівництво гігантських обчислювальних кластерів. Американський інвестор Марк Андріссен назвав DeepSeek-R1 “найприголомшливішим проривом” у своїй кар’єрі.

Більше того, ця ситуація підняла питання про ефективність експортних обмежень США, які мали на меті уповільнити розвиток китайського ШІ-сектору. Відрізані від доступу до передових мікросхем, китайські розробники змушені були шукати альтернативні підходи, що, зрештою, привело до створення більш економічних і ефективних моделей.

Неочікуваний успіх DeepSeek призвів до миттєвої реакції ринку. Акції таких технологічних гігантів, як Nvidia, Microsoft і Meta, втратили в ціні, а в Європі подібний спад пережили ASML та Siemens Energy. Фахівці пояснюють це тим, що поява доступних китайських ШІ-моделей викликає занепокоєння щодо рентабельності поточних інвестицій у великі ШІ-інфраструктури.

З огляду на швидкість, з якою розвивається DeepSeek, можна очікувати, що компанія і надалі дивуватиме новими технологічними рішеннями, а її конкурентам доведеться змінювати стратегії розвитку, аби втримати свої позиції на ринку штучного інтелекту.

Китайський стартап DeepSeek наробив шуму в галузі ШІ

Про компанію DeepSeek

Заснування стартапу

ШІ-модель DeepSeek-R1

Продуктивність та вплив на ринок

Схожі публікації

Вам сподобається

Редакція рекомендує

Цікаве про фінанси

Популярні позначки

Контакти

Соціальні мережі