Штучний інтелект від провідних компаній, таких як OpenAI, Anthropic та інших, дедалі частіше використовується для підтримки програмістів. За словами генерального директора Google Сундара Пічаї, вже чверть усього нового коду в компанії створюється за допомогою ШІ. У свою чергу, керівник Meta Марк Цукерберг також активно просуває ідею масштабного впровадження генеративного ШІ для програмування. Ці ініціативи підкреслюють прагнення техгігантів автоматизувати складні інженерні завдання.
Про це інформує Techcrunch.
Однак нове дослідження Microsoft Research ставить під сумнів ефективність цих моделей. Попри гучні заяви топменеджерів, штучний інтелект поки не здатен конкурувати з досвідченими розробниками у сфері налагодження коду. Виявилося, що моделі, зокрема Claude 3.7 Sonnet від Anthropic та o3-mini від OpenAI, мають суттєві обмеження. Вони стосуються виправлення реальних помилок у програмному забезпеченні.
Тестування на практиці: моделі не справляються з завданнями
Microsoft Research провела масштабне тестування дев’яти різних моделей у рамках спеціального дослідження. Для цього було створено агента, який за допомогою підказок та інструментів налагодження, мав розв’язати 300 завдань з набору SWE-bench Lite. Основна мета дслідження полягала в тому, щоб оцінити здатність моделей до автоматичного усунення помилок у коді.
Результати виявилися невтішними: навіть найкращі моделі рідко досягали успішного виконання половини запропонованих завдань. Найвищий показник точності продемонструвала модель Claude 3.7 Sonnet — лише 48,4%. Інші моделі показали ще слабші результати:
- o1 від OpenAI — 30,2%.
- o3-mini від OpenAI — лише 22,1%.
Це говорить про суттєві обмеження навіть найновіших і найпотужніших рішень на базі ШІ.
Одна з головних причин низької ефективності, труднощі з використанням наданих інструментів налагодження. Деякі моделі не змогли належно адаптуватися до інтерфейсів або зрозуміти, як саме застосовувати інструменти до різних помилок. Проте ще більш значущою проблемою виявився дефіцит якісних навчальних даних, які містять послідовні приклади людських рішень під час налагодження.
Дослідники вважають, що для покращення результатів потрібно навчати моделі на спеціально зібраних даних, що демонструють весь процес роботи з кодом: від аналізу до виправлення. Ідеться про так звані траєкторії, записи взаємодій між агентом та налагоджувачем. Такі дані дали б змогу ШІ ефективніше імітувати людське мислення під час роботи з помилками.
Штучний інтелект ілюструє перспективи, але не замінює фахівців
Попри стрімкий розвиток, штучний інтелект ще далекий від того, щоб повноцінно замінити розробників. Деякі сучасні інструменти, як-от популярний Devin, у тестах здатні виконати лише 3 з 20 завдань. Крім низької точності, моделі часто генерують код із серйозними вразливостями, що створює загрозу для кібербезпеки.
У той же час, технічні лідери не поспішають з похованням професії програміста. Білл Гейтс, співзасновник Microsoft, впевнений, що люди ще довго залишатимуться головними рушіями розробки. Аналогічної думки дотримуються керівники Replit, Okta та IBM. Вони вбачають у ШІ не конкурента, а помічника для розробників. Прогноз свідчить:
Майбутнє — за тандемом людини й ШІ, а не за повною автоматизацією.
Нещодавно редакція сайту AI360 писали про те, як Microsoft розширює можливості ШІ-агентів за допомогою Dapr Agents. Компанія ще у 2019 році запустила Dapr – платформу з відкритим кодом для створення мікросервісних додатків. Хоча на той час концепція ШІ-агентів ще не набула популярності, Dapr вже містив ключові компоненти для їхньої підтримки. Головною особливістю цієї технології була концепція віртуальних акторів – незалежних об’єктів, які отримують та обробляють повідомлення автономно.

