Студенти створили нову відкриту модель голосового ШІ Dia

Пара студентів, які лише кілька місяців вивчають штучний інтелект, заявили про розробку відкритої моделі. Їх модель здатна створювати аудіокліпи у форматі подкастів. Їхня розробка, що конкурує з технологіями, подібними до Google NotebookLM, уже доступна для використання.

Про це розповідає Techcrunch.

Сфера синтетичного мовлення наразі активно розвивається, і поряд із такими лідерами, як ElevenLabs, на ринку з’являються нові перспективні гравці, зокрема PlayAI та Sesame. За даними PitchBook, лише минулого року стартапи у сфері голосового ШІ залучили понад 398 мільйонів доларів інвестицій.

Один із співзасновників стартапу Nari Labs, Тобі Кім, розповів, що ідея створити власну модель з’явилася всього три місяці тому, коли він разом із напарником захопився мовним ШІ. Їх надихнув проект NotebookLM від Google. Однак команда прагнула надати користувачам більше контролю над голосами та сценаріями. Завдяки доступу до програми Google TPU Research Cloud, яка безкоштовно надає потужності для навчання моделей, студенти розробили свій продукт — Dia.

Технічні можливості моделі Dia

ШІ-модель Dia має 1,6 мільярда параметрів, що дозволяє їй генерувати природні діалоги зі сценаріїв. Користувачі можуть налаштовувати:

Інтонацію дикторів

Додавати кашель

Додавати сміх та інші невербальні елементи

Модель доступна для завантаження на платформах Hugging Face та GitHub і здатна працювати на звичайних ПК із відеопам’яттю від 10 ГБ. Якщо не вказати бажаний стиль голосу, Dia автоматично згенерує випадковий варіант, а також може клонувати справжні голоси за заданим зразком.

Під час тестування через веб-демо на TechCrunch, Dia продемонструвала високий рівень якості звучання та відмінну швидкість генерації діалогів. Особливо відзначили простоту використання функції клонування голосу.

Аудіозапис згенерований Dia.

Виклики та ризики, пов’язані з новою технологією

Попри технічні переваги, модель має серйозні ризики щодо безпеки. Розробники попереджають, що система може бути використана для створення шахрайських записів або поширення дезінформації. Хоча на офіційних сторінках проекту вказано заборону на використання Dia для незаконних цілей, команда не бере на себе відповідальність за можливе зловживання.

До того ж розробники не розкрили, які саме дані використовували для навчання моделі. Існують припущення, що серед тренувальних даних могли бути й матеріали, захищені авторським правом, що може спричинити юридичні суперечки в майбутньому.

Тобі Кім зазначив, що Nari Labs планує створити платформу для синтетичного мовлення із соціальними можливостями на базі Dia, а також розробити нові, більш потужні моделі. Команда має намір опублікувати технічну документацію на Dia і розширити підтримку інших мов, окрім англійської.

Студенти створили нову відкриту ШІ-модель для генерації голосових кліпів

Технічні можливості моделі Dia

Виклики та ризики, пов’язані з новою технологією

Схожі публікації

Вам сподобається

Редакція рекомендує

Цікаве про фінанси

Популярні позначки

Контакти

Соціальні мережі