П’ятниця, 15 Травня, 2026
ГоловнаAIДослідження Microsoft показало, що моделі ШІ провалюють роботу з кодом
ГоловнаAIДослідження Microsoft показало, що моделі ШІ провалюють роботу з кодом

Дослідження Microsoft показало, що моделі ШІ провалюють роботу з кодом

-

Штучний інтелект від провідних компаній, таких як OpenAI, Anthropic та інших, дедалі частіше використовується для підтримки програмістів. За словами генерального директора Google Сундара Пічаї, вже чверть усього нового коду в компанії створюється за допомогою ШІ. У свою чергу, керівник Meta Марк Цукерберг також активно просуває ідею масштабного впровадження генеративного ШІ для програмування. Ці ініціативи підкреслюють прагнення техгігантів автоматизувати складні інженерні завдання.

Про це інформує Techcrunch.

Однак нове дослідження Microsoft Research ставить під сумнів ефективність цих моделей. Попри гучні заяви топменеджерів, штучний інтелект поки не здатен конкурувати з досвідченими розробниками у сфері налагодження коду. Виявилося, що моделі, зокрема Claude 3.7 Sonnet від Anthropic та o3-mini від OpenAI, мають суттєві обмеження. Вони стосуються виправлення реальних помилок у програмному забезпеченні.

Тестування на практиці: моделі не справляються з завданнями

Microsoft Research провела масштабне тестування дев’яти різних моделей у рамках спеціального дослідження. Для цього було створено агента, який за допомогою підказок та інструментів налагодження, мав розв’язати 300 завдань з набору SWE-bench Lite. Основна мета дслідження полягала в тому, щоб оцінити здатність моделей до автоматичного усунення помилок у коді.

Результати виявилися невтішними: навіть найкращі моделі рідко досягали успішного виконання половини запропонованих завдань. Найвищий показник точності продемонструвала модель Claude 3.7 Sonnet — лише 48,4%. Інші моделі показали ще слабші результати:

  • o1 від OpenAI — 30,2%.
  • o3-mini від OpenAI — лише 22,1%.
Це говорить про суттєві обмеження навіть найновіших і найпотужніших рішень на базі ШІ.

Одна з головних причин низької ефективності, труднощі з використанням наданих інструментів налагодження. Деякі моделі не змогли належно адаптуватися до інтерфейсів або зрозуміти, як саме застосовувати інструменти до різних помилок. Проте ще більш значущою проблемою виявився дефіцит якісних навчальних даних, які містять послідовні приклади людських рішень під час налагодження.

Дослідники вважають, що для покращення результатів потрібно навчати моделі на спеціально зібраних даних, що демонструють весь процес роботи з кодом: від аналізу до виправлення. Ідеться про так звані траєкторії, записи взаємодій між агентом та налагоджувачем. Такі дані дали б змогу ШІ ефективніше імітувати людське мислення під час роботи з помилками.

Штучний інтелект ілюструє перспективи, але не замінює фахівців

Попри стрімкий розвиток, штучний інтелект ще далекий від того, щоб повноцінно замінити розробників. Деякі сучасні інструменти, як-от популярний Devin, у тестах здатні виконати лише 3 з 20 завдань. Крім низької точності, моделі часто генерують код із серйозними вразливостями, що створює загрозу для кібербезпеки.

У той же час, технічні лідери не поспішають з похованням професії програміста. Білл Гейтс, співзасновник Microsoft, впевнений, що люди ще довго залишатимуться головними рушіями розробки. Аналогічної думки дотримуються керівники Replit, Okta та IBM. Вони вбачають у ШІ не конкурента, а помічника для розробників. Прогноз свідчить:

Майбутнє — за тандемом людини й ШІ, а не за повною автоматизацією.

Нещодавно редакція сайту AI360 писали про те, як Microsoft розширює можливості ШІ-агентів за допомогою Dapr Agents. Компанія ще у 2019 році запустила Dapr – платформу з відкритим кодом для створення мікросервісних додатків. Хоча на той час концепція ШІ-агентів ще не набула популярності, Dapr вже містив ключові компоненти для їхньої підтримки. Головною особливістю цієї технології була концепція віртуальних акторів – незалежних об’єктів, які отримують та обробляють повідомлення автономно.

Коваль Влад
Коваль Влад
Поки ми живемо своїм життям, штучний інтелект поступово охоплює все нові його аспекти. Вже не секрет, що кожний новий пристрій, кожна нова технічна розробка від космічної галузі до побутової техніки має ШІ. Сьогодні твій особистий ШІ лежить у кишені у вигляді смартфона, аналізуючі твої дії, пересування, форму тексту. Завтра він буде давати тобі поради, як краще діяти, пересуватися, писати. Післязавтра він буде здатний стати твоїм незамінним помічником у прийнятті рішень.

Схожі публікації

Вам сподобається

situs slot
slot dana
slot777
slot gacor hari ini