Компанія Google представила нову версію свого відеогенератора Veo 3, яка здатна створювати не лише реалістичне відео, а й синхронізований звуковий супровід. Презентація відбулася на щорічній конференції для розробників Google I/O 2025. Як заявив генеральний директор Google DeepMind Деміс Хассабіс, модель може генерувати фонові шуми, ефекти та навіть озвучення персонажів, орієнтуючись на контекст сцени.
Про це інформує Techcrunch.
Користувач може задати опис героїв, навколишнього середовища та прописати діалог. Після чого модель створить відповідне аудіо, яке буде точно збігатися з візуальним рядом. Це знаменує завершення “німої епохи” генеративного відео, яка панувала до цього.
Доступ до нової версії Veo 3 отримають лише передплатники преміального тарифу Google AI Ultra. Вартість якого складає 249,99 доларів на місяць. Інструмент вже інтегрований у чат-бот Google Gemini і активується за допомогою текстових або графічних підказок. Це дозволяє створювати кліпи в режимі «все в одному»: від зображення до повноцінного звучання.
Google позиціонує інструмент як потужний засіб для творчих професіоналів, які прагнуть автоматизувати або спростити виробництво мультимедійного контенту. Така функціональність робить Veo 3 однією з найсильніших моделей серед усіх генераторів відео, представлених на ринку.
Потенційна база даних і питання авторського контенту
Компанія не розкриває, на яких конкретно даних навчалась модель, але експерти вважають, що відеохостинг YouTube міг стати однією з головних баз для тренування. З огляду на те, що YouTube є власністю Google, така ймовірність виглядає цілком реальною.
До того ж, раніше DeepMind повідомляв, що моделі компанії можуть навчатися на відкритих матеріалах YouTube. Це знову піднімає питання прозорості та етичності використання контенту, особливо авторського походження.
Щоб зменшити ризики використання технології для створення фейків, Google інтегрував у Veo 3 фірмову систему цифрового маркування SynthID. Вона вбудовує у кожен кадр невидимі водяні знаки, які дозволяють відстежувати, що зображення було створене штучним інтелектом. Це особливо актуально у світі, де проблема дипфейків викликає все більше занепокоєння. Водночас, навіть з такими запобіжниками, розвиток подібних моделей змушує художників і аніматорів ставитися до них з обережністю. Багато хто побоюється, що ШІ-інструменти призведуть до масового витіснення творчих професій.
Ризики для творчих індустрій і розвиток попередніх моделей
Згідно з дослідженням Гільдії анімації, до 2026 року штучний інтелект потенційно зруйнує понад 100 000 робочих місць у кіно-, теле- та анімаційній індустрії США. Хоча Google представляє Veo 3 як інструмент для підтримки креативності, у багатьох виникають побоювання щодо масштабних змін у сфері працевлаштування.
Навіть якщо інструмент не замінить митців повністю, він може значно скоротити попит на їхні послуги, особливо у проектах з обмеженим бюджетом.
Окрім Veo 3, Google оновив і попередню модель — Veo 2. Вона отримала можливість краще зчитувати об’єкти, сцени та стилі, а також розпізнавати рухи камери, такі як обертання чи масштабування. Нова функція дозволяє додавати або прибирати об’єкти з відео, а також змінювати формат кадру. Наприклад із портретного на альбомний.
Компанія обіцяє, що всі нові функції стануть доступними на платформі Vertex AI API вже найближчим часом. Це свідчить про наміри Google продовжувати активно інвестувати у відеогенеративні рішення на базі штучного інтелекту.

