Американська технологічна компанія Nvidia заявила про розробку інструменту Fugatto, який здатний генерувати звуки, які раніше не чула людина. Використовуючи текстові або аудіовхідні дані, Fugatto може створювати музику, звукові ефекти та мову.
Про це пише TheVerge.
Наприклад, інструмент здатний реалізувати таку незвичайну підказку, як «саксофон, що виє та гавкає», або створити електронну музику, доповнену звуками собак.
Музична трансформація
Компанія демонструє можливості Fugatto через приклади, зокрема створення ефектів на кшталт «глибоких, гуркотливих басових імпульсів у поєднанні з високим цифровим щебетанням, як звук пробудження великої розумної машини». Також інструмент здатний змінювати голос людини, додаючи різні акценти або емоційні відтінки, наприклад, спокій чи гнів.

Fugatto відкриває нові можливості для музичного редагування. Він може виділяти вокал у треку, додавати інструменти або змінювати мелодію.
Наприклад, у пісні фортепіано можна замінити голосом оперного співака. Таким чином, Nvidia розширює межі творчих можливостей у створенні аудіоконтенту.
Навчання Fugatto
Для створення Fugatto компанія зібрала набір даних із мільйонами аудіозразків. Серед джерел – бібліотека звукових ефектів від BBC. Крім того, Nvidia опублікувала документ із переліком усіх наборів даних, що використовувалися для тренування моделі. Розробники створили інструкції, які значно розширюють функціонал Fugatto та дозволяють виконувати завдання, для яких раніше не вистачало даних.
На ринку вже є інші аудіоінструменти на основі ШІ:
- Stability AI
- OpenAI
- Google DeepMind
- Adobe.
Однак більшість із них не здатні створювати абсолютно нові, нечувані звуки, як це обіцяє Fugatto. Водночас питання авторських прав залишається актуальним: деякі стартапи вже стикаються із судовими позовами через використання захищених матеріалів у процесі навчання моделей.
Доступність інструменту
Поки що Nvidia не уточнює, чи буде Fugatto доступним для широкого загалу, чи залишиться інструментом, орієнтованим на внутрішнє використання або обмежений колом професійних клієнтів. Компанія лише наголошує на його унікальних можливостях, які можуть змінити підхід до створення аудіоконтенту.
Fugatto може стати революційним інструментом для музикантів, звукорежисерів та розробників ігор, якщо Nvidia вирішить його комерціалізувати. Водночас експерти припускають, що інструмент може бути інтегрований у поточні продукти компанії або ж використовуватись для демонстрації технологічного потенціалу Nvidia у галузі штучного інтелекту.
Тим часом конкуренти, такі як Adobe або OpenAI, активно працюють над схожими технологіями. Тому Nvidia може прагнути випередити їх, щоб закріпитися на ринку аудіогенерації, зберігаючи при цьому інтригу щодо повного потенціалу Fugatto.

