Українець створив ШІ, що імітує голоси птахів для науки

Українець та випускник Українського католицького університету Андрій Шевцов створив унікальний алгоритм, що відтворює голоси сотень видів птахів за допомогою глибокого навчання. Цей інструмент може не лише відкрити нові горизонти у біоакустичному моніторингу. Він також може допомогти виміряти екологічну шкоду, завдану війною в Україні.

Про це повідомляє видання Speka.

У своїй дипломній роботі Андрій сфокусувався на створенні синтетичних звуків таких птахів, як страус чи тропічна котинга, використовуючи сучасні ML-архітектури. За його словами, генерація звуків тварин — малодосліджена галузь, на відміну від популярного синтезу музики чи мовлення. Вона відкриває перспективи у сфері охорони природи та дослідження змін екосистем.

Синтетичні голоси птахів — це не просто «штучні співи». Це інструмент, який змінює підхід до спостереження за природою, реабілітації птахів і навіть мистецтва. Завдяки акустичним принадам можна привернути увагу рідкісного виду у важкодоступних лісах — не порушуючи його середовище.

У реабілітаційних центрах пташині голоси допомагають птахам адаптуватися після травм. Звуки створюють відчуття безпеки й зв’язок із природним середовищем, навіть якщо птах ще не вільний. А в музеях і освітніх просторах такі записи стали основою для інтерактивних експозицій та мобільних застосунків.

До того ж, імітація звуків може мати й утилітарну функцію, наприклад відлякувати птахів з аеропортів або сільгоспугідь. Голоси пернатих — це справжній індикатор стану екосистеми, і в умовах воєнної екологічної кризи цей інструмент набуває ще більшого значення.

Як працює алгоритм: під капотом ШІ-співу

Проєкт базується на поєднанні двох аудіодатасетів:

Birdset (1350 годин, 409 видів птахів)

BirdCLEF+ 2025 (30 годин, 60 видів із тропіків Колумбії)

Розробники спробували одразу кілька підходів: донавчання моделей «текст-в-аудіо», зміну архітектур, а також тренування власної моделі з нуля.

Ключову роль у глибокому донавчанні відіграла ML-платформа De Novo з підтримкою GPU, яка забезпечила ресурс для досягнення індустріального рівня якості. Результати тестувалися у порівнянні з популярними open-source моделями, як-от Stable Audio Open від Stability AI та Make-a-Audio 2 від ByteDance.

Модуль було розроблено на Python, і він дозволяє інтегрувати цю модель у будь-який екологічний чи науковий проєкт. На демосторінці можна прослухати як оригінальні голоси, так і кілька варіантів синтетичних відтворень — для популярних, менш популярних і рідкісних видів.

Open-source майбутнє та екологічна відповідальність

Попри завершення диплому, робота триває. Шевцов веде консультації з екологами та дата-сайентистами щодо практичного застосування. Його мета — створити інструмент, який реально допоможе у польових умовах, включно з відкритим кодом, вагами моделей та науковою публікацією.

Проєкт буде доступний у форматі open-source. Андрій пояснює: у сфері екології стандартом є відкритість, адже більшість фінансування надходить не з комерції, а через гранти міжнародних інституцій. Комерціалізація можлива, але наразі не на часі — пріоритетом є ефективність і застосовність у реальному світі.

У майбутньому розробка може стати базою для симуляцій звукових ландшафтів, які дозволять прогнозувати зміни в екосистемах. Або ж навіть перенестись у суміжні галузі — наприклад, генерацію музики. Але, як каже Андрій, головне зараз — не гнатися за гіпотезами, а дати технології принести реальну користь уже сьогодні.

Молодий науковець з України створив ШІ, який імітує спів птахів

Як працює алгоритм: під капотом ШІ-співу

Open-source майбутнє та екологічна відповідальність

Схожі публікації

Вам сподобається

Редакція рекомендує

Цікаве про фінанси

Популярні позначки

Контакти

Соціальні мережі