Google DeepMind, провідна лабораторія з розробки штучного інтелекту, представила свою новітню систему AlphaGeometry2. Вона показала вражаючі результати у вирішенні складних геометричних задач. Ця технологія змогла перевершити середній рівень золотих медалістів Міжнародної математичної олімпіади (IMO). Продемонструвавши здатність ШІ аналізувати, мислити логічно та виводити математичні докази на рівні топових учасників найпрестижніших змагань.
Повідомляє про це Techcrunch.
AlphaGeometry2 — це вдосконалена версія AlphaGeometry, яку DeepMind представила ще у січні 2024 року. Нова модель змогла вирішити 84% усіх геометричних задач, які з’являлися на IMO за останні 25 років. Це значно перевищує показники більшості людей, навіть найкращих математиків серед школярів.
На перший погляд, може здатися, що участь DeepMind у шкільних математичних олімпіадах є дивною. Проте дослідники компанії переконані: успішне вирішення складних геометричних задач може стати ключем до створення більш потужного штучного інтелекту. Особливий інтерес викликає евклідова геометрія, адже вона вимагає не лише знання теорем, а й розвинених логічних навичок, здатності аналізувати різні підходи до розв’язку та вибудовувати математичні докази.
Доведення теорем є важливою складовою математичних міркувань. Наприклад, щоб пояснити, чому працює теорема Піфагора, потрібно знайти правильний набір кроків та обґрунтувати їх. Саме в таких задачах ШІ повинен відбирати правильні рішення серед тисяч можливих варіантів, що значно наближує його до людського мислення. DeepMind вважає, що ці навички можуть бути надзвичайно корисними для розвитку загального штучного інтелекту, який зможе виконувати широкий спектр завдань, включно зі складними інженерними розрахунками та науковими дослідженнями.
Як працює AlphaGeometry2
Головна особливість AlphaGeometry2 — це поєднання двох підходів:
- Нейронна мережа (модель Google Gemini)
- Символічний механізм, який використовує математичні правила для побудови доказів
Такий гібридний метод дозволяє AlphaGeometry2 досягати вищої точності, ніж попередні математичні системи штучного інтелекту.
Задачі IMO базуються на діаграмах, які перед розв’язанням потребують додавання нових елементів — точок, ліній або кіл. Модель Gemini в AlphaGeometry2 прогнозує, які конструкції варто додати, щоб зробити задачу більш зрозумілою та спростити її розв’язок. Потім символічний механізм застосовує математичні правила та знаходить доказ.

Ключовий алгоритм пошуку дозволяє одночасно перевіряти кілька можливих розв’язків та зберігати корисні проміжні результати у загальній базі знань. Задача вважається вирішеною, якщо система знаходить логічно правильний доказ, який підтверджує передбачення моделі Gemini.
Виклики при навчанні AlphaGeometry2
Одна з головних проблем при розробці такої системи — нестача якісних навчальних даних. Геометричні задачі потребують не лише розв’язків, а й формального доведення, яке ШІ може зрозуміти. Тому DeepMind створила власний набір синтетичних даних, згенерувавши понад 300 мільйонів теорем і доказів різної складності.
Команда DeepMind обрала 45 задач IMO за останні 25 років та перетворила їх на 50 тестових завдань (деякі задачі розділили на частини через технічні особливості). У підсумку AlphaGeometry2 змогла вирішити 42 з 50 задач, перевищивши середній бал золотих медалістів (40,9 бала).
Попри успіх, система AlphaGeometry2 має певні обмеження:
- Вона не може вирішувати задачі, де потрібно змінювати кількість точок на діаграмі
- Має труднощі з нелінійними рівняннями та нерівностями
- Хоча система перевершила середній рівень золотих медалістів, вона все ще має труднощі з найскладнішими задачами IMO
Щоб перевірити можливості AlphaGeometry2, команда DeepMind протестувала її на 29 складніших задачах, які були запропоновані експертами, але ще не входили до конкурсної програми IMO. ШІ впорався лише з 20 із 29 завдань, що вказує на необхідність подальшого вдосконалення.
Майбутнє AlphaGeometry2 та висновки

Дослідники DeepMind припускають, що в майбутньому мовні моделі зможуть самостійно вирішувати математичні задачі без використання окремих символічних алгоритмів. Уже зараз вони виявили, що AlphaGeometry2 може частково розв’язувати задачі без допомоги символічного механізму, що може стати важливим кроком до створення універсального математичного ШІ.
Проте поки що цей напрямок потребує подальших досліджень. DeepMind вважає, що для досягнення досконалості в математичних розрахунках мовні моделі повинні бути значно швидшими, а також повністю позбавитися “галюцинацій” — неправильних розв’язків, які виглядають правдоподібно, але є помилковими.
Раніше редакція сайту AI360 писали про те, як DeepMind представляла JetFormer – нову еру мультимодального моделювання даних. Вона здатна генерувати текст і зображення без використання попередньо навчених компонентів. Ця інновація демонструє значний прогрес у розвитку уніфікованих мультимодальних архітектур, що усувають традиційні обмеження, характерні для сучасних моделей.

