Дослідники з Google DeepMind та Чиказького університету презентують інноваційний фреймворк eva для навчання моделей штучного інтелекту (ШІ) за допомогою людського зворотного зв’язку. Цей підхід дає змогу ШІ краще узгоджуватися з людськими цінностями, використовуючи алгоритми зворотного зв’язку з підкріпленням (RLHF) для створення гнучкої та масштабованої структури.
Про це пише Syncedreview.
Асиметрична взаємодія для ефективного вирівнювання
Основна ідея полягає у тому, щоб створити умови, за яких ШІ моделі можуть не лише вдосконалюватися на основі поточних даних, але й самостійно генерувати нові завдання для практики. Це відкриває шлях до автономного самовдосконалення, що допомагає ШІ адаптуватися до уподобань людини.
Фреймворк eva переосмислює процес узгодження ШІ як асиметричну гру між двома ролями: “творцем” та “розв’язувачем”. Творець генерує різноманітні підказки, використовуючи зворотний зв’язок від моделі винагороди, тоді як розв’язувач навчається створювати відповіді, які краще відповідають людським цінностям.
Завдяки цьому процесу творець і розв’язувач здатні адаптуватися до нових завдань без необхідності залучати додаткові людські ресурси. Це робить процес узгодження більш ефективним і менш витратним.
Архітектура та принципи роботи фреймворку eva
Щоб створити умови для співпраці між творцем і розв’язувачем, eva використовує асиметричний алгоритм самонавчання. Творець генерує підказки, які оцінюються за інформативністю та різноманітністю відповідей.

В той самий час розв’язувач відповідає на ці підказки, навчаючись і вдосконалюючи свої відповіді. Ця модель дозволяє інтегрувати eva у вже наявні системи узгодження, забезпечуючи оптимізацію через різні алгоритми, як-от DPO, SPPO, SimPO, ORPO.
Результати тестування
У ході емпіричних тестувань eva продемонструвала значне покращення ефективності узгодження ШІ з людськими цінностями. Що показує її потенціал як економічно вигідної альтернативи використанню даних, створених людьми.
Деякі моделі, натреновані з eva-підказками, навіть перевершили моделі, навчені підказками UltraFeedback. Загалом, фреймворк eva пропонує новий підхід до вирішення задач узгодження. Ці моделі не лише відповідають на завдання, а й формують нові питання, активно взаємодіючи з людськими цінностями.

