ШІ Imagen 2, розроблений компанією Google, відтепер буде здатний генерувати відео тривалістю чотири секунди.
Перш за все, Google не славиться високими досягненнями у сфері створення зображень за допомогою штучного інтелекту. Наостанок, компанія зіштовхнулася зі скандалом через свій генератор зображень, вбудований у Gemini, який неправильно ідентифікував расову належність людей.
Відгукнувшись на масу скарг, у Google вирішили відкликати функцію створення портретів та направити її на доопрацювання. Тим часом, поки відбуваються виправлення, компанія випустила нову версію інструменту для створення зображень, ШІ Imagen 2, у межах їхньої платформи для розробників Vertex AI. Однак є одне “але”: наразі цей інструмент орієнтований на бізнесове використання.

Функції Google Imagen 2
Imagen 2 може маніпулювати зображеннями, використовуючи текстові вказівки, подібно DALL-E і Midjourney. Він може накладати текст, емблеми та логотипи різними мовами на існуючі зображення, такі як візитки, одяг та продукти. Після першого запуску у режимі попереднього перегляду редагування зображень з Imagen 2 тепер доступне у Vertex AI з двома новими можливостями: забарвленням і розбарвленням.
Функції забарвлення і розбарвлення, які вже існують у популярних генераторах зображень, включаючи DALL-E, можна використовувати для видалення непотрібних деталей на зображеннях, додавання нових елементів та розширення кадру для створення ширшої перспективи.
Однак головним оновленням Imagen 2 є можливість “трансформувати текст у живі зображення”, як стверджують у Google. Тепер цей інструмент може створювати короткі відеоролики (4 секунди) на основі текстових вказівок.
Згідно з корпоративною стратегією, Google пропонує живі зображення як інструмент для маркетологів і творчих працівників, таких як генератори GIF-файлів для реклами, які демонструють природу, їжу та тварин.
Тобто тематику, на яку Imagen 2 був добре підготовлений. Google наголошує, що живі зображення можуть фіксувати “різні кути та рухи”, “забезпечуючи послідовність”. Але наразі вони мають низьку роздільну здатність: 360×640, і компанія пообіцяла, що у майбутньому це покращиться.
Щоб знизити ризик створення діпфейків, Google використовуватиме технологію SynthID, розроблену Google DeepMind, для додавання невидимих криптографічних водяних знаків на живі зображення.

