Середа, 17 Червня, 2026
ГоловнаAIСтуденти створили нову відкриту ШІ-модель для генерації голосових кліпів
ГоловнаAIСтуденти створили нову відкриту ШІ-модель для генерації голосових кліпів

Студенти створили нову відкриту ШІ-модель для генерації голосових кліпів

-

Пара студентів, які лише кілька місяців вивчають штучний інтелект, заявили про розробку відкритої моделі. Їх модель здатна створювати аудіокліпи у форматі подкастів. Їхня розробка, що конкурує з технологіями, подібними до Google NotebookLM, уже доступна для використання.

Про це розповідає Techcrunch.

Сфера синтетичного мовлення наразі активно розвивається, і поряд із такими лідерами, як ElevenLabs, на ринку з’являються нові перспективні гравці, зокрема PlayAI та Sesame. За даними PitchBook, лише минулого року стартапи у сфері голосового ШІ залучили понад 398 мільйонів доларів інвестицій.

Один із співзасновників стартапу Nari Labs, Тобі Кім, розповів, що ідея створити власну модель з’явилася всього три місяці тому, коли він разом із напарником захопився мовним ШІ. Їх надихнув проект NotebookLM від Google. Однак команда прагнула надати користувачам більше контролю над голосами та сценаріями. Завдяки доступу до програми Google TPU Research Cloud, яка безкоштовно надає потужності для навчання моделей, студенти розробили свій продукт — Dia.

Технічні можливості моделі Dia

ШІ-модель Dia має 1,6 мільярда параметрів, що дозволяє їй генерувати природні діалоги зі сценаріїв. Користувачі можуть налаштовувати:

  • Інтонацію дикторів
  • Додавати кашель
  • Додавати сміх та інші невербальні елементи

Модель доступна для завантаження на платформах Hugging Face та GitHub і здатна працювати на звичайних ПК із відеопам’яттю від 10 ГБ. Якщо не вказати бажаний стиль голосу, Dia автоматично згенерує випадковий варіант, а також може клонувати справжні голоси за заданим зразком.

Під час тестування через веб-демо на TechCrunch, Dia продемонструвала високий рівень якості звучання та відмінну швидкість генерації діалогів. Особливо відзначили простоту використання функції клонування голосу.

Аудіозапис згенерований Dia.

Виклики та ризики, пов’язані з новою технологією

Попри технічні переваги, модель має серйозні ризики щодо безпеки. Розробники попереджають, що система може бути використана для створення шахрайських записів або поширення дезінформації. Хоча на офіційних сторінках проекту вказано заборону на використання Dia для незаконних цілей, команда не бере на себе відповідальність за можливе зловживання.

До того ж розробники не розкрили, які саме дані використовували для навчання моделі. Існують припущення, що серед тренувальних даних могли бути й матеріали, захищені авторським правом, що може спричинити юридичні суперечки в майбутньому.

Тобі Кім зазначив, що Nari Labs планує створити платформу для синтетичного мовлення із соціальними можливостями на базі Dia, а також розробити нові, більш потужні моделі. Команда має намір опублікувати технічну документацію на Dia і розширити підтримку інших мов, окрім англійської.

Коваль Влад
Коваль Влад
Поки ми живемо своїм життям, штучний інтелект поступово охоплює все нові його аспекти. Вже не секрет, що кожний новий пристрій, кожна нова технічна розробка від космічної галузі до побутової техніки має ШІ. Сьогодні твій особистий ШІ лежить у кишені у вигляді смартфона, аналізуючі твої дії, пересування, форму тексту. Завтра він буде давати тобі поради, як краще діяти, пересуватися, писати. Післязавтра він буде здатний стати твоїм незамінним помічником у прийнятті рішень.

Схожі публікації

Вам сподобається

situs slot
slot dana
slot777
slot gacor hari ini