Українець та випускник Українського католицького університету Андрій Шевцов створив унікальний алгоритм, що відтворює голоси сотень видів птахів за допомогою глибокого навчання. Цей інструмент може не лише відкрити нові горизонти у біоакустичному моніторингу. Він також може допомогти виміряти екологічну шкоду, завдану війною в Україні.
Про це повідомляє видання Speka.
У своїй дипломній роботі Андрій сфокусувався на створенні синтетичних звуків таких птахів, як страус чи тропічна котинга, використовуючи сучасні ML-архітектури. За його словами, генерація звуків тварин — малодосліджена галузь, на відміну від популярного синтезу музики чи мовлення. Вона відкриває перспективи у сфері охорони природи та дослідження змін екосистем.

Синтетичні голоси птахів — це не просто «штучні співи». Це інструмент, який змінює підхід до спостереження за природою, реабілітації птахів і навіть мистецтва. Завдяки акустичним принадам можна привернути увагу рідкісного виду у важкодоступних лісах — не порушуючи його середовище.
У реабілітаційних центрах пташині голоси допомагають птахам адаптуватися після травм. Звуки створюють відчуття безпеки й зв’язок із природним середовищем, навіть якщо птах ще не вільний. А в музеях і освітніх просторах такі записи стали основою для інтерактивних експозицій та мобільних застосунків.
До того ж, імітація звуків може мати й утилітарну функцію, наприклад відлякувати птахів з аеропортів або сільгоспугідь. Голоси пернатих — це справжній індикатор стану екосистеми, і в умовах воєнної екологічної кризи цей інструмент набуває ще більшого значення.
Як працює алгоритм: під капотом ШІ-співу
Проєкт базується на поєднанні двох аудіодатасетів:
- Birdset (1350 годин, 409 видів птахів)
- BirdCLEF+ 2025 (30 годин, 60 видів із тропіків Колумбії)
Розробники спробували одразу кілька підходів: донавчання моделей «текст-в-аудіо», зміну архітектур, а також тренування власної моделі з нуля.
Ключову роль у глибокому донавчанні відіграла ML-платформа De Novo з підтримкою GPU, яка забезпечила ресурс для досягнення індустріального рівня якості. Результати тестувалися у порівнянні з популярними open-source моделями, як-от Stable Audio Open від Stability AI та Make-a-Audio 2 від ByteDance.
Модуль було розроблено на Python, і він дозволяє інтегрувати цю модель у будь-який екологічний чи науковий проєкт. На демосторінці можна прослухати як оригінальні голоси, так і кілька варіантів синтетичних відтворень — для популярних, менш популярних і рідкісних видів.
Open-source майбутнє та екологічна відповідальність
Попри завершення диплому, робота триває. Шевцов веде консультації з екологами та дата-сайентистами щодо практичного застосування. Його мета — створити інструмент, який реально допоможе у польових умовах, включно з відкритим кодом, вагами моделей та науковою публікацією.
Проєкт буде доступний у форматі open-source. Андрій пояснює: у сфері екології стандартом є відкритість, адже більшість фінансування надходить не з комерції, а через гранти міжнародних інституцій. Комерціалізація можлива, але наразі не на часі — пріоритетом є ефективність і застосовність у реальному світі.
У майбутньому розробка може стати базою для симуляцій звукових ландшафтів, які дозволять прогнозувати зміни в екосистемах. Або ж навіть перенестись у суміжні галузі — наприклад, генерацію музики. Але, як каже Андрій, головне зараз — не гнатися за гіпотезами, а дати технології принести реальну користь уже сьогодні.

