Компанія DeepSeek презентувала дві нові моделі першого покоління — DeepSeek-R1 і DeepSeek-R1-Zero, розроблені для вирішення складних завдань логічного мислення. Ці інновації демонструють нові підходи до навчання штучного інтелекту (ШІ) та обіцяють змінити спосіб використання мовних моделей.
Про це інформує AInews.
DeepSeek-R1-Zero стала першою моделлю, яка використовує лише широкомасштабне навчання з підкріпленням (RL), уникаючи традиційного етапу контрольованого тонкого налаштування (SFT). За словами розробників, такий підхід сприяв природному розвитку нових методів мислення, таких як самоперевірка, рефлексія та побудова розгалужених ланцюжків думок.
«Це перше відкрите дослідження, яке підтверджує, що здатність міркувати у великих мовних моделях може формуватися виключно через навчання RL без попереднього налаштування», — заявили дослідники компанії.
Проте, попри інноваційність, DeepSeek-R1-Zero має обмеження. Серед основних проблем відзначено: повторення інформації, низьку читабельність і змішування мов. Ці недоліки спонукали компанію створити вдосконалену версію — DeepSeek-R1.
Удосконалення у DeepSeek-R1
Модель DeepSeek-R1 поєднує переваги навчання з підкріпленням із попереднім етапом тонкого налаштування. Це дало змогу суттєво покращити продуктивність та усунути більшість проблем, виявлених у R1-Zero. DeepSeek-R1 досягає показників, порівнянних із високо оціненою системою o1 від OpenAI, у завданнях з математики, кодування та загального мислення. Наприклад, у тесті MATH-500 модель перевершила OpenAI, досягнувши 97,3%.
Компанія також відкрила вихідний код для R1-Zero та R1, включно із шістьма дистильованими версіями. Зокрема, DeepSeek-R1-Distill-Qwen-32B продемонструвала виняткові результати, випередивши OpenAI o1-mini у кількох тестах. DeepSeek представила нову методологію створення моделей, яка поєднує тонке налаштування та навчання з підкріпленням. Процес включає кілька етапів: від базового навчання міркувань до виявлення просунутих логічних шаблонів. Такий підхід дозволяє створювати моделі, які враховують людські вподобання та виконують складні завдання без попереднього втручання.

Один із ключових здобутків DeepSeek — здатність R1-Zero виконувати складні шаблони мислення без прямої інструкції від людини. Це є проривом для дослідників ШІ з відкритим кодом.
Значення дистиляції для ефективності моделей
Дистиляція — це ключовий процес передачі знань від більших моделей до менших і більш ефективних. Завдяки цьому підходу навіть менші версії моделей DeepSeek-R1 (1.5B, 7B, 14B) демонструють високу продуктивність у спеціалізованих завданнях. Наприклад, у тесті LiveCodeBench, дистильована модель R1-Distill-Qwen-32B набрала 57,2%, що є відмінним результатом для компактних систем. Компанія пропонує моделі в конфігураціях від 1,5 до 70 мільярдів параметрів, підтримуючи архітектури Qwen2.5 і Llama3. Вони доступні для завдань кодування, аналізу природної мови та інших складних обчислень.
DeepSeek опублікувала свої моделі за ліцензією MIT, надаючи користувачам можливість модифікації та комерційного використання. Однак дистильовані версії мають дотримуватися ліцензій оригінальних базових моделей, таких як Apache 2.0 або Llama3.
Ці досягнення підкреслюють значення відкритих досліджень у розвитку ШІ, створюючи нові стандарти для моделей логічного мислення. DeepSeek-R1 і R1-Zero демонструють величезний потенціал для впровадження в реальні завдання, прокладаючи шлях до нових технологічних проривів.

